같은 "NVIDIA GPU"라 해도 아키텍처 세대에 따라 AI 학습 속도가 4~30배 차이가 나요. 2020년에 출시된 A100과 2024년에 출시된 B200은 같은 데이터센터 GPU지만 LLM 추론 성능에서 최대 30배 차이가 나죠.
GPU를 구매할 때 단순히 "NVIDIA GPU"라는 이름만 보는 게 아니라 어떤 아키텍처 세대인지를 확인하는 게 올바른 투자 판단의 출발점이에요. 이 글에서는 NVIDIA가 2020년부터 2026년까지 발표한 4개 세대의 데이터센터 GPU 아키텍처를 체계적으로 정리해 드릴게요.
GPU 아키텍처란 무엇인가요?
GPU 아키텍처는 GPU 칩 내부의 설계 구조를 의미해요. 스마트폰이 매년 새로운 칩셋(스냅드래곤, 엑시노스 등)으로 업그레이드되면서 속도와 배터리 효율이 좋아지듯, NVIDIA도 약 2년 주기로 새로운 아키텍처를 발표하며 AI 연산 성능을 혁신하고 있어요.
NVIDIA는 각 세대에 역사적으로 중요한 과학자의 이름을 붙여요. Ampere(앙페르, 전류 단위의 기원인 프랑스 물리학자), Hopper(그레이스 호퍼, COBOL 개발자이자 미 해군 제독), Blackwell(데이비드 블랙웰, 최초 아프리카계 미국인 미국과학아카데미 회원), Rubin(베라 루빈, 암흑물질 존재 증거를 발견한 천문학자)이 그 주인공이에요.
NVIDIA GPU 아키텍처는 어떻게 진화해왔나요?
NVIDIA는 2020년부터 2026년까지 4개 세대의 데이터센터 GPU 아키텍처를 발표했어요. 각 세대는 이전 세대의 병목 지점을 집중 개선하는 전략을 취해요. 스마트폰이 매년 카메라, 배터리, 프로세서 중 특정 부분만 집중 개선하는 것과 같은 패턴이죠.
Ampere (A100) — 2020년 5월. TSMC 7nm 공정, 542억 트랜지스터. AI 전용 텐서 코어 3세대와 TF32 정밀도를 최초 도입하며 본격적인 AI 학습 시대를 열었죠. 80GB HBM2e 메모리로 대규모 모델 학습의 기반을 마련했어요.
Hopper (H100 / H200) — 2022년 9월. TSMC 4nm 공정, 800억 트랜지스터. FP8 정밀도와 트랜스포머 엔진을 최초 탑재하여 GPT·LLaMA 등 대규모 언어 모델 학습에 최적화했어요. 2024년에 메모리를 141GB로 확대한 H200을 추가 출시했어요.
Blackwell (B200 / GB200) — 2024년 하반기. TSMC 4nm Enhanced 공정, 2,080억 트랜지스터(듀얼 다이). FP4 정밀도와 2세대 트랜스포머 엔진을 도입하여 추론 성능을 극대화했어요. 192GB HBM3e 메모리와 1,800 GB/s NVLink 5세대를 탑재했죠.
Rubin (R100) — 2026년 하반기 예정. TSMC 3nm 공정, 약 3,360억 트랜지스터. 288GB HBM4 메모리(22 TB/s 대역폭), FP4 추론 50 PFLOPS를 목표로 해요. Hopper 대비 65배 AI 컴퓨팅 성능 향상이 예상돼요.
세대별 핵심 스펙은 어떻게 다른가요?
각 세대의 대표 GPU 스펙을 한눈에 비교할 수 있는 표예요. CUDA 코어 수는 동시 연산 능력, 메모리 용량은 처리 가능한 모델 크기, 메모리 대역폭은 데이터 전송 속도, 텐서 코어 성능은 AI 연산 전용 속도를 의미해요.
항목 | A100 SXM (Ampere) | H100 SXM (Hopper) | H200 SXM (Hopper) | B200 HGX (Blackwell) |
|---|---|---|---|---|
공정 | 7nm | 4nm | 4nm | 4nm Enhanced |
트랜지스터 | 542억 개 | 800억 개 | 800억 개 | 2,080억 개 |
CUDA 코어 | 6,912개 | 16,896개 | 16,896개 | ~18,944개 |
텐서 코어 | 432개 (3세대) | 528개 (4세대) | 528개 (4세대) | 592개 (5세대) |
GPU 메모리 | 80GB HBM2e | 80GB HBM3 | 141GB HBM3e | 192GB HBM3e |
메모리 대역폭 | 2.0 TB/s | 3.35 TB/s | 4.8 TB/s | 8.0 TB/s |
FP16 텐서 | 624 TFLOPS | 1,979 TFLOPS | 1,979 TFLOPS | 4,500 TFLOPS |
FP8 텐서 | 미지원 | 3,958 TFLOPS | 3,958 TFLOPS | 9,000 TFLOPS |
FP4 텐서 | 미지원 | 미지원 | 미지원 | 18,000 TFLOPS |
NVLink 대역폭 | 600 GB/s | 900 GB/s | 900 GB/s | 1,800 GB/s |
TDP | 400W | 700W | 700W | 1,000W |
Sparsity(희소성)란 NVIDIA가 개발한 기술로, AI 모델에서 "0"인 값은 건너뛰고 의미 있는 값만 계산해 처리 속도를 2배로 높이는 방식이에요. 실제 AI 워크로드에서 널리 활용되고 있어요.
각 세대에서 가장 크게 변한 것은 무엇인가요?
GPU 아키텍처가 바뀔 때마다 전체를 고르게 업그레이드하는 게 아니라, 그 시점에서 가장 큰 병목이 되는 부분을 집중적으로 개선하는 전략을 취해요.
Ampere (2020): AI 전용 연산의 시작
Ampere 아키텍처의 A100은 AI 학습 전용 GPU의 본격적인 시작점이에요. 이전 세대에도 텐서 코어가 있었지만, A100에서 두 가지 핵심 기술을 처음 도입하면서 AI 학습 효율이 크게 향상됐죠.
첫 번째는 TF32(TensorFloat-32) 정밀도 도입이에요. 기존 FP32 연산 코드를 수정하지 않아도 자동으로 텐서 코어가 활용되는 새로운 연산 형식이에요. 쉽게 말해, 기존 코드를 바꾸지 않아도 AI 학습이 최대 20배 빨라지는 게죠.
두 번째는 **2:4 구조적 희소성(Structural Sparsity)**이에요. AI 모델의 가중치를 4개 값마다 정확히 2개를 0으로 만들어, 0이 아닌 값만 계산하는 기술이에요. 필요 없는 계산을 미리 제거해 처리 속도를 2배 높여줘요.
또한 A100은 MIG(Multi-Instance GPU) 기술을 최초 도입했어요. 하나의 물리적 GPU를 최대 7개의 독립 인스턴스로 분할할 수 있어, 여러 연구자가 하나의 GPU를 동시에 사용할 수 있게 됐죠.
Hopper (2022): 대규모 언어 모델(LLM) 학습 최적화
Hopper 아키텍처의 H100은 GPT, LLaMA 같은 대규모 언어 모델 학습을 위해 설계된 GPU예요. ChatGPT의 등장(2022년 11월)과 시기가 맞물리며 폭발적인 수요를 기록했죠.
첫 째는 FP8 정밀도 + 트랜스포머 엔진이에요. FP8은 숫자를 8비트로 표현하는 초저정밀도 형식이돼요. 정밀도가 낮아지면 계산은 빨라지지만 정확도가 떨어질 수 있는데, 트랜스포머 엔진은 레이어별로 정확도에 민감한 연산은 FP16으로 유지하고, FP8로 해도 되는 연산은 자동으로 전환하는 방식으로 이 문제를 해결했어요. 자동변속기가 도로 상황에 맞춰 기어를 바꾸는 것과 비슷해요.
둘째는 **SM당 CUDA 코어 2배 증가(64개→64개)**에요. SM(Streaming Multiprocessor)은 GPU 내부의 소규모 공장과 같은데, Ampere에서는 각 공장에 작업자가 64명이었는데 Hopper에서는 128명으로 늘었어요. 이러한 혁신의 결과 H100은 A100 대비 LLM 학습 약 4배, LLM 추론 최대 30배 성능 향상을 달성했어요.
2024년에 출시된 H200은 H100의 연산 능력은 그대로 유지하면서 메모리만 업그레이드한 모델이에요. HBM3e 메모리를 탑재하여 용량이 80GB에서 141GB로, 대역폭이 3.35 TB/s에서 4.8 TB/s로 증가했어요. 이로써 Llama2 70B 같은 대형 모델의 전체 KV 캐시를 단일 GPU에 수용할 수 있게 됐죠.
Blackwell (2024): 추론 성능의 도약과 듀얼 다이 설계
Blackwell 아키텍처의 B200은 AI 모델 추론(Inference) 성능을 극대화하기 위해 설계됐어요. AI 산업이 "모델 학습"에서 "모델 서비스 배포"로 무게 중심이 이동하는 시기에 맞춰 출시됐죠.
첫 째는 FP4 정밀도 + 2세대 트랜스포머 엔진이에요. FP4는 숫자를 불과 4비트로 표현하는 초극저정밀도 형식인데, NVIDIA가 독자 설계한 NVFP4 포맷은 업계 표준 MXFP4 대비 더 높은 정확도를 유지해요. 2세대 트랜스포머 엔진은 FP4, FP6, FP8 사이를 자동 전환하며, LLM 추론 처리량을 2배 높이고 에너지 효율을 최대 50배 향상시켰어요.
둘째는 듀얼 다이(Dual-Die) 설계에요. B200은 하나의 GPU 안에 2개의 칩(다이)을 넣은 혁신적 설계예요. 반도체 제조 시 칩 하나의 최대 크기에는 물리적 한계(약 850mm²)가 있어요. 2,080억 개의 트랜지스터를 넣으려면 약 1,600mm²가 필요한데, 이는 단일 칩으로는 불가능해서 두 개의 칩을 초고속 연결(10 TB/s NV-HBI)으로 묶어 소프트웨어에서 하나의 GPU로 인식되게 만들었죠.
셋째는 NVLink 5세대 + NVL72에요. GPU 간 통신 속도가 1,800 GB/s(Hopper 대비 2배)로 향상되었고, 최대 72개 GPU를 하나의 거대 GPU처럼 동작시키는 NVL72 시스템이 등장했어요. 총 130 TB/s의 내부 통신 대역폭을 갖추고 있죠.
MLPerf v5.0 벤치마크 실측에서 Blackwell B200 8-GPU 시스템은 Llama2-70B 추론에서 H200 대비 3배 이상의 토큰/초 처리량을 기록했어요. 다만 TDP가 1,000W로 증가하여 수량(液冷) 냉각이 필수인 점은 도입 시 반드시 고려해야 해요.
Rubin (2026 예정): 차세대 AI 인프라의 미래
2025년 GTC에서 로드맵이 공개된 Rubin 아키텍처는 TSMC 3nm 공정과 HBM4 메모리를 최초 채용해요. 288GB HBM4, 22 TB/s 메모리 대역폭, FP4 추론 50 PFLOPS, NVLink 3.6 TB/s(6세대) 사양으로 2026년 하반기 R100 출시가 예상돼요.
Rubin은 4개의 레티클 칩릿을 사용하는 설계와 Vera CPU(88코어, Grace 대비 2배 성능)와의 페어링이 특징이에요. NVL72 시스템 구성 시 Hopper 대비 65배 AI 컴퓨팅 성능을 목표로 해요. 후속으로 Rubin Ultra(2027년), Feynman(이후)이 예정되어 있죠.
GPU 메모리는 세대별로 어떻게 달라졌나요?
GPU 메모리는 AI 워크로드에서 처리할 수 있는 모델의 크기와 추론 속도를 직접 결정하는 핵심 요소예요. 사무실의 책상 크기에 비유하면 이해하기 쉽워요. 책상(메모리)이 작으면 서류(데이터)를 자주 옮겨야 하고, 넓으면 모든 서류를 한꺼번에 펼쳐놓고 빠르게 작업할 수 있죠.
항목 | A100 (HBM2e) | H100 (HBM3) | H200 (HBM3e) | B200 (HBM3e) |
|---|---|---|---|---|
메모리 용량 | 80GB | 80GB | 141GB | 192GB |
메모리 대역폭 | 2.0 TB/s | 3.35 TB/s | 4.8 TB/s | 8.0 TB/s |
HBM 스택 수 | 5개 | 5개 | 6개 | 8개 |
스택당 용량 | 16GB | 16GB | ~24GB | 24GB |
L2 캐시 | 40MB | 50MB | 50MB | 64MB |
LLM 추론 시 KV 캐시(이전 대화 내용을 기억하는 메모리 영역)가 GPU 메모리에 상주해야 해요. Llama2 70B 모델의 경우 H100(80GB)에서는 KV 캐시 전체를 담을 수 없어 여러 GPU가 필요하지만, H200(141GB)이나 B200(192GB)에서는 단일 GPU로 전체 수용이 가능해요. 메모리가 클수로 더 긴 컨텍스트 윈도우(128K 토큰 이상)를 처리할 수 있어 실서비스 품질이 향상돼요.
텐서 코어와 연산 정밀도란 무엇인가요?
텐서 코어는 NVIDIA GPU 안에 있는 AI 연산 전용 처리 장치예요. 일반 CUDA 코어가 범용 계산을 수행한다면, 텐서 코어는 *행렬 곱셈(Matrix Multiplication)*이라는 특정 연산만을 초고속으로 처리해요. AI 학습과 추론의 핵심이 바로 이 행렬 곱셈이기 때문에, 텐서 코어의 성능이 곧 AI 처리 속도를 결정해요.
연산 정밀도는 숫자를 표현하는 데 사용하는 비트 수를 의미해요. 비트 수가 높을수록(FP64, FP32) 정확하지만 느리고, 낮을수록(FP8, FP4) 빨라지지만 약간의 정확도 손실이 있어요. AI 연산에서는 극한의 정확도가 필요하지 않은 경우가 많아, 정밀도를 낮추고 속도를 높이는 전략이 핵심 트렌드예요.
특징 | 3세대 (Ampere) | 4세대 (Hopper) | 5세대 (Blackwell) |
|---|---|---|---|
지원 정밀도 | FP64, TF32, BF16, FP16, INT8, INT4 | + FP8 추가 | + FP6, FP4 추가 |
핵심 혁신 | TF32 최초 도입, 2:4 Sparsity | FP8 최초 도입, 트랜스포머 엔진 | FP4/FP6 추가, 2세대 트랜스포머 엔진 |
SM당 텐서 코어 | 4개 | 4개 | 4개 |
Sparsity 지원 | 2:4 구조적 희소성 | 2:4 계속 지원 | 2:4 계속 지원 |
연산 정밀도를 돈 계산에 비유하면 쉽게 이해할 수 있어요. FP64는 은행 정산처럼 소수점 16자리까지 정확하지만 과학 시뮬레이션 전용이고, FP32는 일상적 계산 수준, FP16은 십의 자리 오차, FP8은 만원 단위 오차, FP4는 백만원 단위 오차 수준이에요. AI에서는 대부분 만원 단위의 정확도면 충분한 경우가 많아 계산 속도가 수십 배 빨라지는 이점을 활용하게 돼요.
트랜스포머 엔진은 어떤 역할을 하나요?
트랜스포머 엔진(Transformer Engine)은 Hopper 세대부터 도입된 NVIDIA의 독자 기술로, AI 모델의 각 연산 레이어에서 정밀도를 자동으로 조절하는 시스템이에요. 자동차의 자동변속기가 도로 상황에 맞춰 기어를 자동으로 바꾸듯, 트랜스포머 엔진은 각 연산의 특성에 맞춰 FP16↔FP8(Hopper) 또는 FP4↔FP6↔FP8(Blackwell)을 자동 전환해줘요.
1세대 (Hopper): FP8↔FP16 자동 전환. 레이어별로 텐서의 동적 범위를 모니터링하고, 정확도 손실 없이 FP8 사용 가능한 연산은 자동으로 FP8로 전환해요. A100 대비 학습 시 최대 9배, 추론 시 30배 가속을 달성했죠.
2세대 (Blackwell): FP4↔FP6↔FP8 동적 전환. NVIDIA 독자 설계 NVFP4 포맷으로 업계 MXFP4 대비 더 높은 정확도를 유지해요. TensorRT-LLM, NeMo Framework와 통합 최적화되어 LLM 추론 처리량 2배, 에너지 효율 25~50배 향상을 실현했어요.
NVLink란 무엇이고 왜 중요한가요?
NVLink는 NVIDIA가 개발한 GPU 간 초고속 통신 기술이에요. AI 모델이 커지면서 하나의 GPU로는 부족해져 여러 GPU를 함께 사용해야 하는데, 이때 GPU끼리 데이터를 얼마나 빨리 주고받느냐가 전체 성능을 좌우해요.
세대 | GPU당 대역폭 | Ampere 대비 | 최대 연결 GPU |
|---|---|---|---|
NVLink 3 (Ampere) | 600 GB/s | 1배 (기준) | 16 GPU (NVSwitch) |
NVLink 4 (Hopper) | 900 GB/s | 1.5배 | 256 GPU (NVLink Switch) |
NVLink 5 (Blackwell) | 1,800 GB/s | 3배 | 72 GPU (NVL72 도메인) |
NVLink 6 (Rubin) | 3,600 GB/s | 6배 | 미정 |
Llama 3.1 405B 같은 초대형 모델은 단일 GPU에 올릴 수 없어 수십~수백 개 GPU에 분산해야 해요. 이때 GPU 간 통신이 느리면 각 GPU가 서로의 계산 결과를 기다리는 시간으로 전체 성능이 저하돼요. Blackwell NVL72 시스템은 72개 GPU를 130 TB/s 총 대역폭으로 연결하여 사실상 하나의 거대 GPU처럼 동작시켜요. MLPerf v5.1에서 5,120 Blackwell GPU로 Llama 3.1 405B를 학습한 결과 스케일링 효율 85%를 달성했어요.
실제 AI 워크로드에서 성능 차이는 얼마나 될까요?
독립 기관인 MLCommons가 진행하는 MLPerf 벤치마크 실측 데이터를 기반으로 세대별 성능 차이를 확인해볼게요. MLPerf는 동일한 조건에서 여러 하드웨어의 AI 처리 성능을 객관적으로 비교하는 업계 표준 벤치마크예요.
A100 → H100 교체 시 성능 변화
워크로드 | 성능 향상 (A100 대비) | 핵심 요인 |
|---|---|---|
GPT-3 175B 학습 | 약 4배 | 트랜스포머 엔진 + FP8 |
LLM 추론 (530B) | 약 30배 | FP8 텐서 코어 + TMA |
HPC (3D FFT) | 약 7배 | FP64 3배 향상 |
H100/H200 → B200 교체 시 성능 변화
워크로드 | 성능 향상 (H100 대비) | 핵심 요인 |
|---|---|---|
LLM 학습 | 약 3~4배 | FP4/FP8 혼합 + 듀얼 다이 |
Llama2-70B 추론 | 3배+ 토큰/초 (H200 대비) | FP4 텐서 코어 + 192GB 메모리 |
에너지 효율 | H200 대비 42% 향상 | TFLOPS/W: 4.50 (B200) vs 2.83 (H200) |
특히 주목할 만한 결과는 MLPerf Training v5.1 (2025년 11월) 실측이에요. 5,120 Blackwell GPU로 Llama 3.1 405B를 단 10분 만에 사전학습했다는 결과예요. 동일한 수의 Hopper GPU 대비 3배 빠른 속도이며, GPU당 실효 성능은 이전 라운드 대비 42% 향상됐어요.
전력 소비와 냉각 요구사항은 세대별로 어떻게 다를까요?
GPU 성능이 높아질수록 전력 소비도 증가해요. 이는 단순히 전기요금 문제가 아니라, 데이터센터의 전력 인프라와 냉각 시스템 전체를 재설계해야 할 수 있다는 의미예요. GPU를 구매하기 전에 기존 인프라가 새로운 GPU를 감당할 수 있는지 반드시 확인해야 해요.
항목 | A100 SXM | H100 SXM | B200 HGX |
|---|---|---|---|
GPU TDP | 400W | 700W | 1,000W |
냉각 방식 | 공량/수량 | 주로 수량 (공량 가능) | 수량 필수 |
DGX 시스템 전력 (8GPU) | 최대 6.5 kW | 최대 10.2 kW | 최대 14.3 kW |
랙당 전력 (4 DGX) | ~26 kW | 4045 kW | ~57 kW+ |
전력 인프라 | 표준 3상 전력 | 415VAC 3상, 32A 회로 | 고전압(415VAC+) 필수 |
와트당 성능 (FP16 TFLOPS/W) | 1.56 | 2.83 | 4.50 |
H100 도입 시 기존 A100 대비 전력이 75% 증가(400W→700W)하니 415VAC 3상 전력, 32A 회로, N+1 이중화를 확인해야 해요. B200 도입 시 H100 대비 전력이 43% 추가 증가(700W→1,000W)하며, 직접 액체 냉각 또는 침수 냉각이 필수이고 고밀도 배치 시 랙당 100kW 이상의 전력 공급 인프라가 필요해요.
한국에서 GPU를 도입하려면 어떻게 해야 할까요?
2025년 10월 NVIDIA 젠슨 황 CEO가 방한하면서 한국에 GPU 26만 장 공급 계획을 발표했어요. 주로 GB200 Blackwell GPU이며, 한국 내 NVIDIA GPU 보유량은 약 65,000장에서 30만 장 이상으로 대폭 확대될 예정이에요.
기관 | 배분 수량 | 주요 용도 |
|---|---|---|
네이버클라우드 | 6만 장 | 클라우드 AI 서비스 |
삼성전자 | 5만 장 | 자체 AI 연구 |
SK그룹 | 5만 장 | 통신·반도체 AI |
현대차 | 5만 장 | 피지컬 AI (4.3조원 공동 투자) |
과기정통부 | 5만+ 장 | 국가 AI 인프라 |
현재 한국 시장 수급 현황
A100은 중고 시장에서 거래되고 있고, 신규 도입보다는 기존 인프라 활용 또는 보조 용도에 적합해요. H100은 한국 시장에서 구매 가능하며 리드타임이 개선되고 있고, 공량 운영 가능한 마지막 고성능 세대라는 점이 특징이에요. H200은 H100과 동일 연산력에 메모리 76% 증가본이고, B200은 2025~2026년 한국 공급 확대 예정인데 수량 인프라가 필수예요.
한국은 미국 수출 규제 대상이 아니며 HBM 공급국으로서 전략적 위치를 보유하고 있어요.
우리 회사에 맞는 GPU 세대는 어떻게 선택하나요?
GPU 세대 선택은 단순히 "최신이 최고"가 아니에요. 현재 워크로드 특성, 기존 인프라 상태, 예산 규모, 향후 확장 계획을 종합적으로 고려해야 해요.
비용 효율 중시: H100 / H200 추천
공량 가능, 검증된 소프트웨어 생태계, 상대적으로 안정화된 공급망. 기존 데이터센터 인프라를 대부분 활용할 수 있어요. LLM 학습·추론 모두에서 검증된 성능을 보이죠.
최신 성능 필요: B200 추천
FP4 지원으로 추론 성능 극대화, 192GB 메모리로 대형 모델 수용. 단 수량 인프라 필수이며 전력 인프라 업그레이드가 필요해요.
장기 투자 관점: B200 또는 Rubin 대기
2026년 하반기 Rubin(R100) 출시 예정(HBM4 288GB, 3nm). 현재 B200 도입 후 Rubin으로 순차 전환하는 투트랙 전략도 유효해요.
예산 제한: 중고 A100/H100 + 클라우드 병행
일상 워크로드는 중고 A100/H100 온프레미스, 대규모 학습은 클라우드 B200을 버스트(Burst) 방식으로 활용하는 하이브리드 전략이에요.
A100 → H100 ROI: LLM 학습 3~4배, 추론 최대 30배 향상. 전력이 75% 증가해도 와트당 성능(TFLOPS/W)이 1.56에서 2.83으로 81% 개선돼요.
H100 → B200 ROI: 학습·추론 모두 3~4배 향상, 메모리 2.4배(80GB→192GB). 전력 43% 증가 대비 와트당 성능 59% 개선(2.83→4.50). 추론 집약 워크로드에서 ROI가 가장 우수해요.
NVIDIA 외에 다른 선택지는 없나요?
NVIDIA가 AI 인프라 시장의 80% 이상을 점유하고 있지만, AMD, Intel, Google도 경쟁 제품을 출시하고 있어요.
제품 | 메모리 | NVIDIA 대응 | 강점 | 한계 |
|---|---|---|---|---|
AMD MI300X | 192GB HBM3 | H100/H200 경쟁 | 대용량 메모리 | ROCm 생태계 부족 |
AMD MI355X | 288GB HBM3e | B200 경쟁 | 메모리 1.6배 | 실증 데이터 부족 |
Intel Gaudi 3 | 128GB HBM2e | H100 대안 | 상대적 저가 | FP8 성능이 H100의 절반 수준 |
Google TPU v7 | - | Blackwell 경쟁 | 4,614 TFLOPS/칩 | Google Cloud 전용 |
NVIDIA를 선택하는 핵심 이유는 네 가지예요. 20년 이상 축적된 CUDA 생태계, 경쟁사 대비 압도적인 멀티 GPU 통신 대역폭의 NVLink/NVSwitch, 학습부터 배포까지 일관된 최적화 도구의 통합 소프트웨어, Dell·HPE·Supermicro·ASUS·Lenovo 등 방대한 서버 제조사 지원 네트워크예요.
자주 묻는 질문(FAQ)
Q. H100과 H200의 차이는 연산 성능인가요, 메모리인가요?
메모리만 달라요. H100과 H200의 연산 성능(CUDA 코어, 텐서 코어, TFLOPS)은 완전히 동일해요. H200은 메모리를 80GB HBM3에서 141GB HBM3e로, 대역폭을 3.35 TB/s에서 4.8 TB/s로 업그레이드한 모델이에요. LLM 추론처럼 메모리 용량과 대역폭이 병목인 워크로드에서 H200이 유리해요.
Q. B200의 듀얼 다이 설계는 소프트웨어 호환성에 문제가 없나요?
문제없어요. B200의 2개 다이는 10 TB/s NV-HBI 인터커넥트로 연결되어 캐시 일관성이 유지돼요. 소프트웨어에서는 하나의 통합 CUDA GPU로 인식되므로, 개발자가 다이 분리를 신경 쓸 필요가 없어요. CUDA 12.8 이상에서 네이티브 지원돼요.
Q. 기존 A100 서버에 B200을 바로 장착할 수 있나요?
바로 장착은 불가능해요. A100(SXM4 폼팩터, 400W)과 B200(SXM6 폼팩터, 1,000W)은 물리적 규격, 전력 요구사항, 냉각 방식이 모두 달라요. B200은 수량 냉각이 필수이며, 전용 HGX 보드와 호환 서버 섬시가 필요해요. Supermicro, Dell, HPE 등의 B200 전용 서버 시스템을 별도로 도입해야 해요.
Q. Rubin(R100)을 기다리는 게 나을까요, 지금 B200을 사는 게 나을까요?
현재 AI 프로젝트 일정에 따라 달라요. Rubin은 2026년 하반기 출시가 예상되지만, 양산 초기에는 공급 부족과 가격 프리미엄이 예상돼요. 지금 AI 인프라가 필요하다면 B200을 도입하고, 향후 Rubin으로 순차 전환하는 게 실용적이에요. 6개월~1년 여유가 있다면 Rubin 대기도 합리적 선택이에요.
정리하자면
NVIDIA GPU 아키텍처 4세대의 핵심 차이는 각 세대가 이전 세대의 병목을 해결하면서 AI 연산의 새로운 기준을 제시해왔다는 거예요. Ampere는 TF32·Sparsity·MIG로 AI 전용 연산을 시작했고, Hopper는 FP8·트랜스포머 엔진으로 LLM 시대를 열었으며, Blackwell은 FP4·듀얼 다이·NVL72로 추론 성능을 극대화했고, Rubin은 HBM4·3nm·칩릿으로 다음 세대를 준비하고 있어요.
GPU 구매 결정의 출발점은 "어떤 아키텍처 세대인지"를 확인하는 거예요. 같은 "NVIDIA 데이터센터 GPU"라도 A100과 B200의 LLM 추론 성능은 최대 30배 차이가 나요. 워크로드 특성, 예산, 인프라 준비도, 장기 로드맵을 종합적으로 고려해서 최적의 세대를 선택하세요.
엑스디노드에서는 귀사의 AI 워크로드와 예산에 맞는 최적의 GPU 아키텍처와 서버 구성을 함께 고민해드려요. 필요하신 부분 편하게 문의해 주세요.






