AI 연구를 위한 GPU 핵심 사양 가이드

NVIDIA의 H100, B200 같은 데이터센터급 GPU는 왜 이렇게 비싸지 궁금해 하신 적 있을 거예요. 단순히 '성능이 좋아서'라고 끝내기엔 셋명이 부족해요. 특히 NVIDIA는 매 세대마다 전 영역을 균등하게 올리기보다, 특정 병목 지점을 집중 개선하는 전략을 쓰고 있어요.

예를 들면 H200은 H100 대비 연산 성능은 똑같고 메모리만 개선했고, B200은 추론 작업에 특화된 FP4 정밀도를 도입했죠. 스마트폰이 매년 카메라나 배터리 같은 특정 요소만 집중 개선하는 거와 비슷해요.

이 글에서는 H100, H200, B200, RTX 5090, RTX 4090 등 주요 모델의 사양을 비교 분석하고, 연구·개발 목적에 따른 선택 기준을 정리해 드릴게요.

GPU가 AI 연산에 필수인 이유는 무엇인가요?

CPU는 보통 4–16개의 고성능 코어를 탑재해서 복잡한 순차 작업을 빠르게 처리해요. 반면 GPU는 수천 개에서 수만 개의 단순 코어를 병렬로 운용하는 구조예요.

이를 공장에 비유하면, CPU는 소수의 숙련 기술자가 맞춤형 제품을 하나씩 제작하는 방식이고, GPU는 수천 명의 작업자가 표준화된 제품을 동시에 대량 생산하는 방식이에요. 단일 복잡 작업은 CPU가 우위이지만, 동일한 단순 작업을 수백만 번 반복할 때는 GPU가 압도적으로 효율적이에요.

구분	코어 수	특징
일반 노트북 CPU	8개	복잡한 순차 작업에 최적화
RTX 4090	16,384개	병렬 연산 중심
H100	16,896개 + 528개 전용 코어	AI 작업 특화
B200	24,576개 + 768개 전용 코어	차세대 AI 추론 최적화

AI 모델 학습의 핵심 연산은 *행렬 곱셈(Matrix Multiplication)*인데, 수백만에서 수십억 번의 단순 곱셈-덧셈 연산이 반복돼요. 예를 들어 GPT-3 학습에는 약 314 제타플롭스(10²¹회)의 부동소수점 연산이 필요해요. 8개 코어의 CPU보다 16,000개 코어의 GPU가 병렬 처리하는 게 수백 배 효율적인 이유예요.

CUDA 코어와 텐서 코어는 어떻게 다른가요?

CUDA 코어 — 병렬 연산 유닛

CUDA 코어는 NVIDIA GPU의 기본 연산 유닛이에요. 각 코어는 클럭 사이클마다 하나의 부동소수점 연산(덧셈, 곱셈 등)을 수행해요. 코어 수가 많을수록 동시에 처리할 수 있는 연산량이 늘어나죠.

모델	CUDA 코어 수	상대적 규모
RTX 4090	16,384개	기준
RTX 5090	21,760개	+33%
H100	16,896개	+3%
B200	24,576개	+50%

여기서 중요한 포인트는, 코어 수가 많다고 무조건 성능이 좋은 게 아니라는 거예요. H100은 RTX 5090보다 코어 수가 적지만 가격은 10배 이상 높아요. 바로 텐서 코어와 메모리 시스템의 차이 때문이에요.

텐서 코어 — AI 특화 가속기

**텐서 코어(Tensor Core)**는 AI 연산에 특화된 하드웨어 가속기예요. 일반 CUDA 코어가 범용 연산 유닛이라면, 텐서 코어는 행렬 곱셈 전용 초고속 프로세서예요.

기계 설비에 비유하면, CUDA 코어는 다목적 공작 기계이고 텐서 코어는 특정 작업만 처리하는 전용 자동화 설비예요. 일반 작업자 10명이 하루 걸려 완료할 작업을 전용 설비는 1시간 만에 처리해요. AI 신경망의 99% 이상이 행렬 곱셈로 구성돼서, 텐서 코어가 있으면 AI 작업이 10–20배 가속돼요.

모델	텐서 코어	세대	주요 특징
RTX 4090	512개	4세대	FP8 지원
RTX 5090	680개	5세대	FP4 지원
H100	528개	4세대	트랜스포머 엔진
B200	768개	5세대	2세대 트랜스포머 엔진, FP4

RTX 4090과 H100은 CUDA 코어 수가 비슷하지만, H100의 텐서 코어는 트랜스포머 엔진을 탑재해서 대형 언어 모델(LLM) 학습을 2배 가속해요. 가격 차이의 핵심 요인이 바로 여기예요.

VRAM과 메모리 대역폭이 왜 중요한가요?

VRAM — GPU 전용 메모리

**VRAM(Video RAM)**은 GPU 전용 메모리로, 처리 중인 모든 데이터(AI 모델 가중치, 학습 데이터, 중간 연산 결과)가 저장되는 공간이에요.

작업 책상에 비유하면, 작은 책상(8GB)에서는 참고서 한두 권만 펼칠 수 있지만, 큰 책상(192GB)에서는 백과사전 전체를 동시에 펼쳐두고 작업할 수 있어요. 메모리가 부족하면 시스템 RAM이나 디스크를 써야 해서 속도가 급격히 저하돼요.

모델	VRAM 용량	메모리 타입	적합한 작업 규모
RTX 4090	24GB	GDDR6X	중소형 모델 (70억 파라미터 이하)
RTX 5090	32GB	GDDR7	대형 이미지/영상 모델
RTX 6000 Ada	48GB	GDDR6 (ECC)	전문가급 개발 환경
H100	80GB	HBM3	대형 언어 모델 (130–650억 파라미터)
H200	141GB	HBM3e	초대형 모델 (1000억+ 파라미터)
B200	192GB	HBM3e	GPT-4급 모델 실시간 추론

실제 사례를 보면, GPT-3(1750억 파라미터)를 FP16 정밀도로 실행하려면 약 350GB의 메모리가 필요해요. RTX 4090(24GB) 단독으로는 불가능하지만, H100(80GB) 4개를 NVLink로 연결하면 320GB를 확보해서 실행이 가능해요.

메모리 대역폭 — 데이터 전송 속도

**메모리 대역폭(Memory Bandwidth)**은 GPU와 VRAM 사이에서 초당 전송 가능한 데이터량을 나타내요. 고속도로의 차선 수에 비유하면 이해하기 쉽워요.

1차선 도로는 시간당 100대, 10차선 고속도로는 시간당 1,000대의 차량을 처리해요. 아무리 메모리 용량이 크고 코어 수가 많아도, 데이터를 빠르게 전송할 수 없다면 코어들이 대기 상태로 유휴화돼요.

모델	메모리 대역폭	상대 비교
RTX 4090	1.01 TB/s	기준
RTX 5090	1.79 TB/s	+77%
H100	3.35 TB/s	+232%
H200	4.8 TB/s	+375%
B200	8.0 TB/s	+692%

실제 AI 작업에서 GPU 코어는 종종 데이터 대기 상태로 유휴화돼요. 공장에 원자재 공급이 지연되어 작업자들이 대기하는 상황과 같죠. H200이 H100과 동일한 코어 성능을 가졌음에도 메모리 대역폭이 1.4배 높아서 실제 LLM 추론에서 1.8배 빠른 성능을 보이는 게 이 때문이에요.

H200의 핵심 개선점은 오직 메모리예요. 연산 코어는 H100과 완전히 동일하지만, 메모리 용량 76% 증가와 대역폭 43% 증가만으로 신제품이 됐어요. 이게 바로 NVIDIA의 선택적 개선 전략이에요.

연산 정밀도(FP64부터 FP4까지)는 왜 중요한가요?

**정밀도(Precision)**는 숫자를 표현할 때 사용하는 비트 수를 의미해요. 높은 정밀도는 정확하지만 느리고, 낮은 정밀도는 빠르지만 근사적이에요.

사진 해상도에 비유하면, FP64는 8K 초고화질(100MB, 처리 느림), FP32는 4K(25MB, 보통 속도), FP16은 HD(6MB, 빠름), FP8은 압축 이미지(1.5MB, 매우 빠름), FP4는 썸네일(0.4MB, 초고속)이에요.

정밀도 형식별 특성

FP64 (Double Precision): 과학 시뮬레이션, 기상 예측에 사용되며 AI에는 과도하게 정확해서 거의 쓰이지 않아요.

FP32 (Single Precision): 일반 컴퓨팅의 표준이며 전통적인 AI 학습에 사용됐어요.

FP16 (Half Precision): 현대 AI 학습의 표준으로 자리잡았어요. FP32 대비 2배 빠르고 메모리를 절반만 써요.

FP8 (Quarter Precision): H100(Hopper 아키텍처)에서 처음 도입됐으며, AI 추론(inference)의 게임 체인저로 평가받아요.

FP4 (Microscaling): Blackwell(RTX 5090, B200)에서 도입됐으며 초대형 모델 추론의 미래 기술이에요.

낮은 정밀도 사용의 타당성

신경망은 인간 뇌처럼 근사적으로 작동해요. 원주율 π를 3.141592653589793으로 계산하든 3.14로 계산하든, 최종 추론 결과(예: "이 이미지는 고양이다")는 대부분 동일해요.

전환	속도 향상	메모리 절감	정확도 손실
FP32 → FP16	2배	50%	~0.1%
FP16 → FP8	2배	50%	~0.5%
FP8 → FP4	2배	50%	~1–2%
FP32 → FP4 (누적)	8배	87.5%	~2–3%

FP32에서 FP4로 전환하면 속도는 8배 향상되고 메모리는 8분의 1만 사용하지만, 정확도는 2–3%만 감소해요. 대부분의 추론 작업에서 이 정도 정확도 손실은 허용 가능한 수준이에요.

혼합 정밀도 학습

최신 GPU는 영리한 방식으로 작동해요. 중요한 계산은 FP16/FP32로 정확하게 처리하고, 덜 중요한 계산은 FP8/FP4로 빠르게 처리하죠. 화가가 스케치는 빠르게 하고 중요한 부분만 세밀하게 그리는 것과 같은 원리예요.

Hopper의 트랜스포머 엔진은 H100에서 FP8과 FP16을 실시간으로 자동 전환해요. Blackwell의 2세대 트랜스포머 엔진은 B200에서 FP4와 FP6(6비트)를 추가해서 더욱 세밀한 정밀도 제어가 가능해요. 이게 B200이 H100 대비 추론을 15배 가속하는 핵심 메커니즘이에요.

주요 GPU 모델 비교 — H100 vs H200 vs B200

H100 (Hopper, 2022년)

핵심 사양: 16,896개 CUDA 코어 / 528개 텐서 코어(4세대) / 80GB HBM3 메모리 / 3.35 TB/s 대역폭 / FP8 지원 / 트랜스포머 엔진.

혁신 포인트: A100 대비 AI 학습 6배, 추론 30배 가속. 업계 최초로 FP8 정밀도를 도입해서 추론 성능 혁신을 이끌었어요.

H200 (Hopper 리프레시, 2024년)

핵심 사양: 16,896개 CUDA 코어 / 528개 텐서 코어(H100과 동일) / 141GB HBM3e 메모리(76% 증가) / 4.8 TB/s 대역폭(43% 증가).

혁신 포인트: H100 대비 LLM 추론 1.8배 가속(메모리 개선만으로 달성). 연산 코어는 미변경이지만 메모리 대역폭만으로 실질적 성능을 끌어올린 사례예요.

B200 (Blackwell, 2024–2025년)

핵심 사양: 듀얼 다이 설계(GPU 칩 2개 통합) / 208억 개 트랜지스터(H100의 2.6배) / 192GB HBM3e 메모리 / 8 TB/s 대역폭 / 768개 텐서 코어(5세대, FP4 지원) / 9,000 TOPS(FP8) / 18,000 TOPS(FP4) / TDP 1,000W(수량 필수).

혁신 포인트: H100 대비 AI 추론 15–30배 가속, FP4로 20 페타플롭스 달성.

소비자/전문가 라인업과의 차이는 무엇인가요?

모델	CUDA 코어	메모리	대역폭	주요 용도
RTX 4090	16,384	24GB GDDR6X	1.01 TB/s	게이밍, 중소형 AI
RTX 5090	21,760	32GB GDDR7	1.79 TB/s	콘텐츠 제작, AI 개발
RTX 6000 Ada	18,176	48GB GDDR6 ECC	960 GB/s	전문 워크스테이션

**RTX 시리즈(소비자/전문가용)**은 GDDR6X/GDDR7 메모리를 써서 고속이지만 용량이 제한되고, PCIe 카드 폼팩터에 모니터 출력 포트를 포함해요. 300–575W 전력을 소비하며 게이밍, 영상 편집, 중소형 AI 개발에 최적화됐어요.

**데이터센터 GPU(H100, B200)**는 HBM3/HBM3e 메모리로 최대 대역폭과 대용량을 지원하고, SXM 폼팩터로 모니터 출력은 없어요. 700–1,000W 전력을 소비하고 NVLink로 멀티 GPU 구성이 가능해서 대규모 AI 학습·추론에 전용으로 쓰여요.

세대별 성능 향상은 어떻게 냘을까요?

GPU 세대가 진화할 때마다 가격은 40–100% 상승하지만, 성능 향상은 작업 유형에 따라 크게 달라요.

A100 → H100: AI 학습 2배, AI 추론 6–9배, 과학 계산(FP64) 3배

H100 → H200: AI 학습 거의 동일(0%), 대형 모델 추론 1.8배, 소형 모델은 차이 미미

H100 → B200: AI 학습 2.5–3배, AI 추론 15–30배, 컴퓨터 비전 1.3–1.5배

B200이 특정 작업(GPT-4급 대형 LLM 실시간 추론)에서 H100 대비 30배 빠른 건 사실이지만, 이미지 분류 모델 학습에서는 1.5배 정도만 빠르게 나와요. 마케팅 자료의 '30배 빠름'은 최적 조건에서의 피크 성능이고, 모든 작업에 적용되지 않아요.

연구 목적별 GPU 선택 가이드

RTX 4090: AI 개발 입문 단계, 소형–중형 모델 파인튜닝(70억 파라미터 이하), 이미지 생성 AI(Stable Diffusion 등)에 적합해요. 24GB로 대부분의 소규모 연구가 가능한 가성비 선택이에요.

RTX 5090: 최신 FP4 정밀도 활용, 32GB 메모리가 필요한 대형 작업, 미래 대비 투자에 적합해요. 32GB GDDR7과 5세대 텐서 코어의 FP4 지원이 강점이에요.

RTX 6000 Ada: 전문 워크스테이션, 48GB 메모리가 필요한 작업, ECC 메모리로 안정성을 중시하는 경우, 24/7 연속 작동에 적합해요. 전문가용 드라이버와 기업 기술 지원을 받을 수 있어요.

H100: 대형 언어 모델 학습, 80GB 메모리가 필요한 작업, 멀티 GPU 확장(NVLink)이 필요한 경우에 적합해요. 성숙한 소프트웨어 생태계와 검증된 성능이 장점이에요.

H200: 1000억 파라미터 이상 모델, 긴 컨텍스트 처리(100K+ 토큰), 메모리 병목이 주요 제약인 경우에 적합해요. H100 대비 141GB 메모리를 지원하면서 H100 코드를 그대로 호환해요.

B200: 최첨단 AI 연구, GPT-4급 모델 실시간 추론, FP4 정밀도 활용에 적합해요. 다만 초기 소프트웨어 미성숙과 1,000W 고전력, 수량 시스템 필수라는 제약이 있어요.

정리하자면

GPU 선택에서 기억해야 할 다섯 가지는 이래요.

첫째, NVIDIA의 선택적 개선 전략을 이해해야 해요. 매 세대는 전체 시스템을 업그레이드하지 않고 특정 병목을 집중 개선해요. H200은 메모리만, B200은 추론 성능만 크게 향상시켰어요.

둘째, 가격과 성능은 비례하지 않아요. B200이 H100보다 2배 비싸다고 모든 작업에서 2배 빠른 게 아니에요. 특정 작업(초대형 LLM 추론)에서만 15–30배 가속돼요.

셋째, 소프트웨어 성숙도를 고려해야 해요. 신제품은 카탈로그 사양이 우수해도 실제로는 6–12개월 후에 진가가 드러나요. H100 같은 검증된 제품이 안정적일 수 있어요.

넷째, 메모리가 연산 코어보다 중요할 수 있어요. 대형 모델 작업에서는 코어 수보다 VRAM 용량과 대역폭이 실질적 병목이 돼요.

다섯째, RTX와 데이터센터 GPU를 명확히 구분해야 해요. 개인 연구자나 소규모 팀은 RTX 4090/5090으로 충분해요. H100 이상은 기업 규모의 대규모 작업에 필요해요.

AI 하드웨어 시장은 AI 발전 속도가 하드웨어 개발을 앞서고, 하드웨어 공급이 수요를 따라가지 못하며, 가격은 성능보다 빠르게 상승하는 구조적 불균형 상태예요. 다만 DeepSeek V3 같은 사례에서 보듯, 소프트웨어 최적화로 상대적으로 저사양 하드웨어에서도 경쟁력 있는 성능을 달성할 수 있어요.

최신 GPU 구매가 유일한 해법이 아니에요. 연구 목적에 적합한 GPU를 선택하고 효율적으로 활용하는 게 더 중요해요. 어떤 구성이 우리 팀에 맞는지 고민될 때, 엑스디노드에 편하게 문의해 주세요.

AI 연구를 위한 GPU 핵심 사양 가이드

코어부터 정밀도까지, GPU 사양을 사례로 풀어 설명해 드렸어요.

GPU가 AI 연산에 필수인 이유는 무엇인가요?

CUDA 코어와 텐서 코어는 어떻게 다른가요?

CUDA 코어 — 병렬 연산 유닛

텐서 코어 — AI 특화 가속기

VRAM과 메모리 대역폭이 왜 중요한가요?

VRAM — GPU 전용 메모리

메모리 대역폭 — 데이터 전송 속도

연산 정밀도(FP64부터 FP4까지)는 왜 중요한가요?

정밀도 형식별 특성

낮은 정밀도 사용의 타당성

혼합 정밀도 학습

주요 GPU 모델 비교 — H100 vs H200 vs B200

H100 (Hopper, 2022년)

H200 (Hopper 리프레시, 2024년)

B200 (Blackwell, 2024–2025년)

소비자/전문가 라인업과의 차이는 무엇인가요?

세대별 성능 향상은 어떻게 냘을까요?

연구 목적별 GPU 선택 가이드

정리하자면

AI 인프라 인사이트, 메일로 받아보세요

공대에 미친 중국, 의대에 미친 한국 — KBS 인재전쟁이 던진 질문

MLPerf 벤치마크, 우리 AI 연구에 NVIDIA GPU를 어떻게 매핑할까요?

하네스 엔지니어링이란? 모델보다 환경이 AI 성능을 가르는 이유

공대에 미친 중국, 의대에 미친 한국 — KBS 인재전쟁이 던진 질문

MLPerf 벤치마크, 우리 AI 연구에 NVIDIA GPU를 어떻게 매핑할까요?

공대에 미친 중국, 의대에 미친 한국 — KBS 인재전쟁이 던진 질문

엑스디노드를 통해 한정된 예산을
얼마나 잘 활용할 수 있을지 확인해 보세요.

엑스디노드를 통해 한정된 예산을
얼마나 잘 활용할 수 있을지 확인해 보세요.

엑스디노드를 통해 한정된 예산을
얼마나 잘 활용할 수 있을지 확인해 보세요.

AI 연구를 위한 GPU 핵심 사양 가이드

코어부터 정밀도까지, GPU 사양을 사례로 풀어 설명해 드렸어요.

GPU가 AI 연산에 필수인 이유는 무엇인가요?

CUDA 코어와 텐서 코어는 어떻게 다른가요?

CUDA 코어 — 병렬 연산 유닛

텐서 코어 — AI 특화 가속기

VRAM과 메모리 대역폭이 왜 중요한가요?

VRAM — GPU 전용 메모리

메모리 대역폭 — 데이터 전송 속도

연산 정밀도(FP64부터 FP4까지)는 왜 중요한가요?

정밀도 형식별 특성

낮은 정밀도 사용의 타당성

혼합 정밀도 학습

주요 GPU 모델 비교 — H100 vs H200 vs B200

H100 (Hopper, 2022년)

H200 (Hopper 리프레시, 2024년)

B200 (Blackwell, 2024–2025년)

소비자/전문가 라인업과의 차이는 무엇인가요?

세대별 성능 향상은 어떻게 냘을까요?

연구 목적별 GPU 선택 가이드

정리하자면

AI 인프라 인사이트, 메일로 받아보세요

공대에 미친 중국, 의대에 미친 한국 — KBS 인재전쟁이 던진 질문

MLPerf 벤치마크, 우리 AI 연구에 NVIDIA GPU를 어떻게 매핑할까요?

하네스 엔지니어링이란? 모델보다 환경이 AI 성능을 가르는 이유

공대에 미친 중국, 의대에 미친 한국 — KBS 인재전쟁이 던진 질문

MLPerf 벤치마크, 우리 AI 연구에 NVIDIA GPU를 어떻게 매핑할까요?

공대에 미친 중국, 의대에 미친 한국 — KBS 인재전쟁이 던진 질문

엑스디노드를 통해 한정된 예산을 얼마나 잘 활용할 수 있을지 확인해 보세요.

엑스디노드를 통해 한정된 예산을 얼마나 잘 활용할 수 있을지 확인해 보세요.

엑스디노드를 통해 한정된 예산을 얼마나 잘 활용할 수 있을지 확인해 보세요.

엑스디노드를 통해 한정된 예산을
얼마나 잘 활용할 수 있을지 확인해 보세요.

엑스디노드를 통해 한정된 예산을
얼마나 잘 활용할 수 있을지 확인해 보세요.

엑스디노드를 통해 한정된 예산을
얼마나 잘 활용할 수 있을지 확인해 보세요.