사양표를 펼치면 약어가 가득해요. CUDA 코어, Tensor 코어, FP4, FP8, TF32, BF16, HBM3e, NVLink, MIG, TDP. 한 줄 한 줄 무슨 뜻인지 모르겠는데, 그 와중에 영역 담당자는 "이 모델이 좋다"고 권하고, 검색해보면 곧바로 H100과 B200 비교 글이 쏟아져요.
그런데 비교 글을 읽어도 어딘가 찜찜한 게 남아요. "with sparsity"라는 표기가 왜 붙어 있는지, FP8과 BF16이 어떻게 다른지, NVLink 대역폭 숫자가 큰 게 좋은 건지 — 이런 기본 질문이 풀리지 않은 채로 비교 결과만 보면 결정에 자신이 안 서요.
이번 글에서는 특정 GPU 모델 이야기는 잠시 미뤄둘게요. 대신 사양표에 자주 등장하는 항목 하나하나가 정확히 무엇을 의미하는지부터 차근차근 풀어드릴게요. 연산 유닛, 정밀도와 TFLOPS, 메모리, 인터커넥트 순서로요. 마지막에 가서야 워크로드별로 어떤 줄을 우선해서 봐야 하는지 정리할 거예요.
사양표는 결국 네 가지 묶음의 약어 모음이에요
처음 보면 정신없는 사양표도, 네 묶음으로 나눠보면 머릿속에서 정리돼요. 어떤 GPU의 사양표든 결국 이 네 가지를 설명하고 있거든요.
첫째는 연산 유닛이에요. CUDA 코어, Tensor 코어, RT 코어 같은 항목이 여기 들어가요. GPU가 실제로 계산을 처리하는 작업자들이라고 보시면 돼요. 둘째는 정밀도와 처리량이에요. FP64, FP32, TF32, BF16, FP16, FP8, FP4 같은 약어와 각 줄에 붙은 TFLOPS 숫자. 같은 GPU여도 어느 정밀도로 계산하느냐에 따라 처리량이 4배, 8배까지 갈리거든요.
셋째는 메모리예요. VRAM 용량, 메모리 대역폭, HBM이나 GDDR 같은 종류 표기. 작업자들이 데이터를 들고 있고 가져다 쓰는 책상에 해당해요. 넷째는 인터커넥트와 환경이에요. NVLink, PCIe, SXM 폼팩터, TDP, MIG. GPU가 다른 GPU와 어떻게 연결되고, 어떤 서버에 어떻게 장착되며, 전력은 얼마나 쓰는지를 알려줘요.
이 네 묶음을 머릿속에 그려두면, 사양표를 봐도 "지금 이 줄이 어느 묶음에 속하는 항목이지" 하고 위치를 잡을 수 있어요. 이제 하나씩 들어가볼게요.
연산 유닛 — CUDA 코어, Tensor 코어, RT 코어가 뭔가요?
사양표 위쪽에 보통 코어 수가 적혀 있어요. 그런데 "CUDA 코어 18,176개" 같은 숫자만 봐서는 그게 큰 건지 작은 건지, 어디에 쓰이는 건지 감이 안 와요. 코어가 세 종류라는 것부터 짚고 가요.
CUDA 코어 — GPU의 기본 작업자예요
CUDA 코어는 GPU의 기본 연산 단위예요. CPU 코어와 달리 구조는 단순하지만, 한 GPU 안에 수천에서 수만 개가 들어가요. 공장에 비유하면 단순 반복 작업을 빠르게 처리하는 작업자 수천 명이 있는 셈이죠. CPU가 박사급 인력 4~8명을 두는 모델이라면, GPU는 단순 작업자 수만 명을 두는 모델이에요.
CUDA 코어들은 그냥 흩어져 있는 게 아니라 계층 구조로 묶여 있어요. 128개 CUDA 코어가 모여 SM(Streaming Multiprocessor)이 되고, SM 여러 개가 묶여 GPC(Graphics Processing Cluster)가 되며, GPC가 모여 GPU 하나가 돼요. 사양표에 SM 수가 적혀 있다면 그것에 128을 곱한 게 CUDA 코어 수와 거의 같다고 보시면 돼요. NVIDIA CUDA GPU 페이지에서 세대별 구조를 확인할 수 있어요.
CUDA 코어는 주로 FP32와 INT32 같은 범용 연산을 처리해요. 게임 그래픽, 일반 과학 계산, 데이터 처리 등 폭넓게 쓰여요. 사양표에서 CUDA 코어 수는 GPU의 "기본 체급"을 나타내는 지표지만, AI 워크로드에서는 다른 코어가 훨씬 중요해요.
Tensor 코어 — AI 행렬곱 전용 가속기예요
AI 워크로드의 본질은 행렬곱 연산의 반복이에요. 같은 패턴의 곱셈과 덧셈을 천문학적인 횟수로 반복하죠. CUDA 코어로 처리하면 가능은 하지만, 한 번에 한 개씩 처리하는 단순 작업자로는 시간이 너무 걸려요. 그래서 NVIDIA가 만든 게 Tensor 코어예요. 행렬곱 한 묶음을 한 번에 처리하도록 설계된 전용 가속기죠.
CUDA 코어가 단순 작업자라면, Tensor 코어는 AI 행렬곱 전담 부서예요. 같은 클록 사이클에 더 많은 행렬 연산을 한꺼번에 끝내요. AI 학습·추론 처리량이 CUDA 코어 대비 수십 배 빠른 이유가 여기 있어요. 사양표에서 "FP16 Tensor Core 1,979 TFLOPS" 같은 줄을 볼 텐데, 이게 Tensor 코어가 만들어내는 처리량이에요.
Tensor 코어는 세대마다 진화해왔어요. 3세대(Ampere)는 FP64, TF32, BF16, INT8을 지원하면서 구조적 희소성(sparsity) 가속을 도입했고, 4세대(Ada Lovelace, Hopper)는 FP8을 추가하고 Transformer Engine을 결합했어요. 5세대(Blackwell)는 FP4(NVFP4)까지 지원하는데, NVIDIA의 NVFP4 소개 글에 따르면 FP16 대비 메모리는 4배 절감하면서 정확도 손실은 최소화한다고 해요.
RT 코어 — 레이 트레이싱 전용 부서예요
RT 코어는 레이 트레이싱(Ray Tracing) 가속 전용 유닛이에요. 빛이 물체에 부딪혀 반사되고 굴절되는 경로를 실시간으로 계산해야 하는데, 이걸 CUDA 코어로 처리하면 너무 느려요. RT 코어는 광선과 폴리곤의 교차 판정을 하드웨어 수준에서 빠르게 처리해요.
RT 코어는 모든 GPU에 있는 건 아니에요. 데이터센터 학습 전용 GPU에는 RT 코어가 없거나 작게 들어가고, 시각 워크로드(3D 렌더링, 가상 프로덕션, 미디어 후처리)에 쓰이는 GPU에는 RT 코어가 많이 들어가요. 사양표에 "3rd Generation RT Cores 142"처럼 적혀 있다면, 이 GPU는 시각·미디어 워크로드까지 염두에 둔 라인이라는 뜻이에요.
TFLOPS와 정밀도 — 같은 GPU도 줄마다 처리량이 달라요
사양표에서 가장 많이 나오는 숫자가 TFLOPS예요. 그런데 같은 GPU여도 줄마다 숫자가 너무 다른 걸 보면 의아하실 거예요. FP32 줄은 67 TFLOPS인데, FP8 줄은 3,958 TFLOPS라고 적혀 있는 식이거든요. 같은 GPU가 어떻게 60배 차이를 만드는 걸까요?
TFLOPS가 정확히 의미하는 것
TFLOPS는 Tera(10의 12승) FLOPS의 줄임말이에요. FLOPS는 Floating-point Operations Per Second, 즉 초당 부동소수점 연산 횟수고요. 1 TFLOPS는 초당 1조 번의 부동소수점 연산을 의미해요. PFLOPS(PetaFLOPS)는 그 1,000배, 즉 초당 1,000조 번이에요.
중요한 건 이 숫자가 항상 "어떤 정밀도로 계산했을 때"의 처리량이라는 거예요. 같은 GPU여도 FP32로 계산하느냐 FP8로 계산하느냐에 따라 처리량이 자릿수가 달라져요. 그래서 사양표에는 보통 정밀도별로 줄을 나눠서 적어요. 어떤 줄을 봐야 할지는 내 워크로드가 어느 정밀도로 돌아가는지에 달려 있어요.
한 가지 알아두면 좋은 건, 사양표의 TFLOPS는 이론적 최대 처리량이라는 점이에요. 실제 워크로드에서는 메모리에서 데이터를 가져오는 시간, 코어 간 통신, 알고리즘의 비효율 등이 겹쳐서 이론값의 30~70% 정도가 나오는 게 보통이에요. 사양표를 절대값으로 받아들이기보다는, 같은 정밀도 줄에서 GPU 간 상대 비교 용도로 쓰는 게 안전해요.
부동소수점 정밀도 — FP64부터 FP4까지
정밀도는 한 숫자를 표현하는 데 비트 몇 개를 쓰는지를 의미해요. 엑셀의 소수점 자릿수와 비슷한 개념이에요. 자릿수가 많으면 정확하지만 메모리와 연산이 비싸고, 자릿수가 적으면 빠르고 가볍지만 정밀도가 떨어져요. 사양표에 등장하는 정밀도를 정리하면 이래요.
FP64는 64비트 부동소수점, 가장 정밀해요. 과학 시뮬레이션, 금융 계산, 정밀 모델링에 쓰여요. FP32는 32비트로, 게임 그래픽과 일반 GPU 연산의 표준이에요. TF32(TensorFloat-32)는 NVIDIA가 만든 19비트 형식인데, FP32의 동적 범위는 그대로 두면서 가수부만 줄여 Tensor 코어가 빠르게 처리할 수 있도록 설계됐어요. AI 학습에서 FP32 대체용으로 자주 쓰여요.
BF16(BFloat16)은 16비트인데 지수부를 FP32와 동일하게 8비트로 잡아서, 오버플로우와 언더플로우 위험을 낮춘 형식이에요. LLM 학습의 사실상 표준이 됐어요. FP16은 같은 16비트지만 지수부가 5비트로 좁아서, BF16 대비 동적 범위가 좁아요. FP8은 8비트로, Hopper 세대부터 도입됐고, FP16 대비 메모리·처리량이 두 배 효율적이에요. FP4(NVFP4)는 4비트로, Blackwell 세대부터 등장한 가장 낮은 정밀도예요.
정밀도가 낮을수록 데이터 한 개당 차지하는 메모리가 줄고, 같은 시간에 처리할 수 있는 연산 수가 늘어나요. 다만 정확도가 떨어질 수 있어서, 모델과 워크로드에 따라 어디까지 낮춰도 되는지 평가가 필요해요. NVIDIA Hopper 아키텍처 페이지에 정밀도별 처리량 차이가 정리돼 있어요.
정밀도별로 정리하면 이래요. 왼쪽부터 정밀도, 비트 수, 주요 용도, 도입 세대 순서예요.
FP64 | 64비트 | 과학 시뮬레이션, 정밀 모델링 | 기존 표준 |
FP32 | 32비트 | 게임 그래픽, 범용 GPU 연산 | 기존 표준 |
TF32 | 19비트 | AI 학습 (FP32 대체) | Ampere |
BF16 | 16비트 | LLM 학습 표준 (지수부 8비트) | Ampere |
FP16 | 16비트 | 추론·학습 (지수부 5비트) | 기존 표준 |
FP8 | 8비트 | LLM 학습·추론 고효율 | Hopper |
FP4 | 4비트 | 초대형 모델 추론 | Blackwell |
"with sparsity" — 사양표 숫자에 숨어 있는 함정
FP8이나 FP16 Tensor Core 줄을 보다 보면, "with sparsity" 또는 별표(*) 표기가 붙어 있는 경우가 많아요. 별표가 없는 줄과 있는 줄을 비교하면 처리량이 정확히 두 배 차이 나요. 이 표기의 의미를 모르면 사양표 비교를 잘못 하기 쉬워요.
구조적 희소성(Structural Sparsity)은 행렬 안의 값 절반이 0인 패턴을 GPU가 하드웨어 수준에서 인식해서 연산을 건너뛰는 기법이에요. NVIDIA가 Ampere 세대부터 도입했어요. 모델이 정확히 2:4 패턴(4개 중 2개가 0)으로 학습 또는 가지치기(pruning)돼 있을 때만 활성화돼요.
현실에서는 모든 모델이 이 패턴으로 학습돼 있지는 않아요. 그래서 "with sparsity" 숫자는 이론적 최대치일 뿐, 일반 워크로드에서는 그 절반 수준으로 보는 게 안전해요. 두 GPU의 사양표를 비교할 때는 둘 다 with sparsity 기준이거나, 둘 다 dense(별표 없는) 기준인지 확인하고 비교하셔야 해요. 한쪽은 sparsity, 다른 쪽은 dense로 비교하면 두 배 차이가 그대로 왜곡으로 들어와요.
GPU 메모리 — VRAM, 대역폭, HBM, GDDR이 뭐가 다른가요?
메모리 묶음은 사양표에서 가장 자주 오해받는 영역이에요. 용량과 대역폭이 다른 이야기라는 점, 메모리 종류에 따라 가격과 성능이 갈린다는 점이 명확히 구분돼야 해요.
VRAM 용량 — GPU의 작업 책상 크기예요
VRAM(Video RAM)은 GPU에 직접 연결된 전용 메모리예요. CPU가 쓰는 시스템 메모리(DRAM)와는 완전히 분리돼 있어요. 사양표에 "48GB", "80GB", "141GB" 같은 숫자로 적혀 있는 게 VRAM 용량이고요.
VRAM이 작업 책상 크기에 비유되는 이유는, GPU가 작업하는 데이터를 한 번에 그 위에 펼쳐놔야 하기 때문이에요. 책상이 좁으면 큰 작업물을 펼칠 수 없고, AI 모델이 VRAM에 다 안 들어가면 그 모델을 그 GPU 한 장으로는 못 돌려요. AI 모델의 크기는 곧 필요한 VRAM 용량으로 직결돼요.
계산도 간단해요. 모델 파라미터 수 × 정밀도(바이트 수) = 필요한 VRAM. 예를 들어 7B 파라미터 모델을 FP16(2바이트)으로 올린다면 약 14GB, FP8(1바이트)로는 약 7GB가 필요해요. 학습은 그래디언트와 옵티마이저 상태까지 같이 들어가서 추론 대비 3~4배 더 필요하고요.
메모리 대역폭 — 차선 수와 자릿수의 차이
메모리 대역폭(Memory Bandwidth)은 GB/s 또는 TB/s 단위로 표시돼요. GPU 코어가 1초 동안 메모리에서 읽고 쓸 수 있는 데이터의 총량이에요. 책상 위에 펼쳐놓은 데이터를 작업자에게 얼마나 빨리 가져다줄 수 있느냐를 결정해요. 고속도로 차선 수에 비유할 수 있어요.
대역폭이 중요한 이유는, 많은 AI 워크로드가 메모리 바운드(memory-bound)이기 때문이에요. 즉 GPU 코어가 더 빠르다고 해도, 메모리에서 데이터를 충분히 빨리 가져오지 못하면 코어가 놀게 돼요. LLM 추론 가이드가 정리한 공식이 직관적이에요.
토큰 1개 생성 시간 = 옮겨야 할 총 바이트 ÷ 메모리 대역폭
— 메모리 바운드 워크로드에서 대역폭은 곧 처리 속도예요
대역폭 숫자는 GPU 세대마다 자릿수가 달라요. 2~3년 전 데이터센터 GPU는 1~2 TB/s 수준이었는데, 최신 세대는 4~8 TB/s까지 올라왔어요. 같은 용량이라도 대역폭이 두 배면 메모리 바운드 워크로드의 처리량도 거의 두 배라고 보시면 돼요.
HBM과 GDDR — 메모리 종류가 갈리는 이유
사양표에 "HBM3e", "HBM3", "GDDR6", "GDDR6X" 같은 표기가 나와요. 이건 메모리 종류 표시예요. 같은 GB 용량이라도 종류에 따라 대역폭과 가격이 크게 갈려요.
HBM(High Bandwidth Memory)은 메모리 다이를 수직으로 쌓아서 GPU 다이 옆에 붙이는 구조예요. 버스 폭이 한 스택당 1,024비트로, GDDR(보통 32비트/칩)보다 자릿수가 큰 차선 수를 확보해요. 그래서 대역폭이 압도적으로 높지만, 제조 단가도 높아요. HBM 세대는 HBM2 → HBM2e → HBM3 → HBM3e → HBM4 순으로 발전하면서 대역폭이 계속 올라왔어요.
GDDR(Graphics DDR)은 그래픽 카드와 워크스테이션 GPU에 주로 쓰이는 메모리예요. 메모리 칩이 GPU 보드 위에 평면으로 배치돼요. HBM보다 대역폭은 낮지만, 제조 단가가 낮아서 가격 효율이 좋아요. GDDR6와 GDDR6X가 현재 주력이고, GDDR7도 등장했어요.
사양표에서 메모리 종류를 보면 GPU의 성격을 가능할 수 있어요. HBM이 들어간 GPU는 대용량·고대역폭이 필요한 학습·고급 추론용, GDDR이 들어간 GPU는 비용 효율과 워크스테이션 호환성을 우선한 워크로드용인 경우가 많아요.
메모리 종류별로 정리하면 이렇게 볼 수 있어요. 왼쪽부터 메모리 종류, 구조, 버스 폭, 대역폭 수준, 일반적 용도 순서예요.
HBM2e | 수직 스택 | 1024비트/스택 | 1~2 TB/s | Ampere 세대 학습 GPU |
HBM3 | 수직 스택 | 1024비트/스택 | 3~4 TB/s | Hopper 세대 학습 GPU |
HBM3e | 수직 스택 | 1024비트/스택 | 5~8 TB/s | 최신 학습·추론 GPU |
GDDR6 | 평면 배치 | 32비트/칩 | 0.5~1 TB/s | 데이터센터 범용·워크스테이션 |
GDDR6X | 평면 배치 | 32비트/칩 | 0.7~1.2 TB/s | 고성능 워크스테이션 |
GDDR7 | 평면 배치 | 32비트/칩 | 1~2 TB/s | 최신 워크스테이션·고급 추론 |
인터커넥트와 폼팩터 — GPU가 어떻게 연결되고 장착되나요?
사양표 아래쪽에는 GPU의 "물리적 환경" 정보가 적혀 있어요. 다른 GPU와 어떻게 연결되는지(인터커넥트), 어떤 슬롯에 꽂히는지(폼팩터), 전력은 얼마나 쓰는지(TDP). 이 세 가지를 묶어서 봐요.
NVLink와 NVSwitch — GPU 간 전용 통로
NVLink는 NVIDIA가 만든 GPU 전용 고속 통신 기술이에요. CPU를 거치지 않고 GPU끼리 직접 데이터를 주고받게 해줘요. 작업자들 사이에 직통 인터컴을 설치한 것과 비슷해요.
사양표에 "NVLink 4th Gen 900 GB/s" 같은 식으로 적혀 있어요. 세대마다 대역폭이 크게 올라오는데, NVIDIA NVLink 공식 페이지에 따르면 4세대는 GPU당 900 GB/s, 5세대는 1,800 GB/s예요. 비교 기준이 되는 PCIe Gen5가 약 64 GB/s 정도니까, NVLink는 자릿수가 한 단계 위인 대역폭을 제공해요.
NVSwitch는 NVLink 기반 스위치 칩이에요. 한 서버 안의 모든 GPU를 전방위(all-to-all)로 연결해줘서, 어떤 GPU 쌍도 풀 대역폭으로 통신할 수 있게 해요. 분산 학습에서 여러 GPU가 그래디언트를 동기화할 때 결정적인 역할을 해요.
사양표에 NVLink 항목이 없거나 "지원 안 됨"으로 적혀 있는 GPU는, 멀티 GPU 구성에서 통신이 PCIe로 떨어져요. GPU 간 통신이 많은 워크로드라면 NVLink 유무가 결정적인 차이를 만들어요.
PCIe — 표준 사내 통신망
PCIe(PCI Express)는 GPU뿐 아니라 SSD, 네트워크 카드 등이 컴퓨터의 메인보드와 통신하는 표준 인터페이스예요. 사양표에 "PCIe Gen4 x16 64 GB/s" 또는 "PCIe Gen5 x16 128 GB/s" 같은 식으로 적혀 있어요. 표준이라 호환성이 넓지만, NVLink 대비 대역폭이 낮은 게 단점이에요.
PCIe는 세대(Gen3, Gen4, Gen5)와 레인 수(x8, x16)로 대역폭이 결정돼요. 같은 GPU여도 어느 세대 PCIe 슬롯에 꽂느냐에 따라 호스트-GPU 데이터 전송 속도가 달라져요. 단일 GPU로 추론만 돌리는 환경에서는 PCIe로 충분한 경우가 많지만, 여러 GPU를 묶거나 데이터 로딩이 빈번한 워크로드에서는 PCIe 세대까지 확인해야 해요.
SXM, PCIe, NVL — 폼팩터의 의미
폼팩터는 GPU의 물리적 형태와 장착 방식을 의미해요. 사양표에 "SXM", "PCIe", "NVL" 같은 표기가 나오는데 각각 의미가 달라요.
SXM 폼팩터는 NVIDIA 전용 고전력 소켓이에요. 일반 PCIe 슬롯이 아니라 전용 HGX 보드에 직접 장착돼요. TDP를 700~1,200W까지 끌어올릴 수 있고, NVLink를 풀 대역폭으로 지원해요. 대규모 학습 시스템에 들어가는 폼팩터예요. PCIe 폼팩터는 표준 PCIe 슬롯에 꽂는 카드 형태예요. TDP가 보통 300~350W로 낮고, 표준 서버에 장착 가능해서 범용성이 높아요. NVL 폼팩터는 랙 단위의 전용 시스템에 쓰이는 형태로, 한 랙 안 수십 GPU를 NVLink 패브릭으로 묶어요.
사양표에서 같은 GPU가 SXM 버전과 PCIe 버전으로 나뉘는 경우가 많아요. 같은 코어를 쓰지만 폼팩터에 따라 NVLink 대역폭, TDP, 메모리 용량이 다를 수 있어서 비교할 때 반드시 같은 폼팩터끼리 봐야 해요.
그 외 알아두면 좋은 항목들
사양표 끝쪽이나 부가 정보 영역에 등장하는 항목들이 몇 개 더 있어요. 항상 보는 건 아니지만, 알아두면 결정에 도움이 돼요.
TDP(Thermal Design Power)는 GPU가 정상 동작 시 발생시키는 최대 열량을 와트(W) 단위로 표시한 거예요. 냉각 시스템이 흡수해야 할 최대 상한치고, 평균 소비전력은 아니에요. 실제 워크로드에서는 더 낮게 나오는 경우가 많지만, 데이터센터 전력 예산을 잡을 때는 TDP × GPU 수 × PUE로 계산하는 게 안전해요.
MIG(Multi-Instance GPU)는 단일 GPU를 최대 7개의 독립 인스턴스로 분할하는 기술이에요. 각 인스턴스가 전용 메모리와 코어를 가지고 완전히 격리돼요. NVIDIA MIG 페이지에서 자세한 내용을 볼 수 있어요. 멀티 테넌트 클라우드처럼 한 GPU를 여러 사용자가 동시에 쓰는 환경에서 유용해요. MIG 지원 여부가 사양표에 "Yes/No"로 적혀 있어요.
아키텍처 세대는 GPU의 설계 세대를 나타내요. NVIDIA의 경우 Ampere(2020) → Ada Lovelace·Hopper(2022) → Blackwell(2024) → Rubin(예정) 순서고, 세대마다 새로운 정밀도, 새로운 Tensor 코어 세대, 새로운 NVLink 세대가 도입돼요. 사양표 가장 위에 보통 적혀 있어요.
CUDA Compute Capability는 GPU가 어떤 CUDA 명령어 세트를 지원하는지 나타내는 버전 번호예요. 7.5, 8.0, 8.9, 9.0, 10.0 같은 숫자로 표시돼요. 특정 CUDA 라이브러리나 프레임워크가 어떤 Compute Capability 이상을 요구할 때 호환성 확인용으로 쓰여요.
그래서 워크로드별로 어떤 줄을 봐야 하나요?
여기까지 읽으셨다면 사양표의 각 항목이 무엇을 의미하는지 감이 잡히셨을 거예요. 이제 워크로드별로 우선순위를 정리할게요. 같은 사양표를 펼쳐도 워크로드에 따라 결정적인 줄이 다르거든요.
LLM 학습은 메모리 용량과 GPU 간 통신이 핵심이에요. 70B 모델을 FP16으로 학습하면 가중치만 140GB, 그래디언트와 옵티마이저 상태까지 합치면 420~560GB가 필요해서 멀티 GPU 분산 학습이 기본이거든요. 사양표를 볼 때 VRAM 용량 → NVLink 대역폭 → FP8/BF16 Tensor Core 처리량 순서로 보세요. NVLink가 없는 GPU는 분산 학습에서 통신 병목이 그대로 드러나요.
LLM 추론은 메모리 바운드 워크로드예요. 토큰 한 개 생성에 모델 가중치 전체를 한 번씩 읽어야 해서, 메모리 대역폭이 토큰 생성 속도를 거의 결정해요. 사양표는 메모리 대역폭 → VRAM 용량(KV 캐시 포함) → FP8/FP4 Tensor Core 처리량 순서로 봐요. 같은 GPU여도 FP8과 FP4 줄의 처리량이 두 배씩 차이 나는 것도 이 시점에서 의미를 가져요.
이미지 생성·미디어는 단일 GPU 한 장으로 돌리는 경우가 대부분이라 NVLink는 거의 의미가 없어요. 대신 VRAM 용량(특히 배치 처리 시 폭증), FP16 Tensor Core 처리량, RT 코어가 결정적이에요. 사양표는 VRAM 용량 → FP16 처리량 → RT 코어 → NVENC/NVDEC 인코더 순서로 봐요.
세 워크로드를 한 표로 정리하면 이래요. 왼쪽부터 워크로드, 사양표를 볼 때 1·2·3순위로 봐야 할 항목, NVLink 필요도 순서예요.
LLM 학습 | VRAM 용량 | NVLink 대역폭 | FP8/BF16 처리량 | 필수 |
LLM 추론 | 메모리 대역폭 | VRAM 용량 (KV 캐시 포함) | FP8/FP4 처리량 | 선택 |
이미지 생성·미디어 | VRAM 용량 | FP16 처리량 | RT 코어 | 불필요 |
정리하자면
사양표는 약어와 숫자의 나열이 아니라, 네 묶음(연산 유닛·정밀도와 처리량·메모리·인터커넥트와 환경)으로 정리된 한 장의 설계도예요. CUDA 코어는 GPU의 기본 작업자, Tensor 코어는 AI 행렬곱 전담 부서, RT 코어는 레이 트레이싱 전용 부서. TFLOPS는 정밀도별로 다르게 측정되고, "with sparsity" 표기는 이론적 최대치라는 신호예요. VRAM은 책상 크기, 메모리 대역폭은 차선 수. NVLink와 PCIe는 GPU가 다른 GPU나 시스템과 연결되는 통로고요.
사양표를 잘 읽는다는 건 결국 각 항목이 무엇을 측정하는 줄인지 정확히 알고, 워크로드에 맞춰 우선순위를 매기는 능력이에요. 다음에 NVIDIA 데이터시트를 펼치셨을 때, 이 글에서 짚은 네 묶음과 각 항목의 의미를 떠올리시면 훨씬 빠른 결정이 가능할 거예요.





