이 가이드는 LLM 학습 원리와 GPU 인프라 구축을 두 가지 파트로 나눠서 총정리한 가이드예요. PART 1에서는 LLM 학습의 원리와 파인튜닝 전략을, PART 2에서는 이를 구현하기 위한 하드웨어 인프라 요구사항을 다루어요.
LLM이란 무엇이며, 왜 기업에게 중요한가요?
**LLM(Large Language Model, 대규모 언어 모델)**은 수십억에서 수조 개의 텍스트 데이터로 학습된 인공지능 모델이에요. ChatGPT, Claude, Gemini가 대표적이며, 자연스러운 대화 생성, 질문 답변, 문서 요약, 코드 작성 등 다양한 언어 기반 작업을 수행해요.
2023년 이후 LLM은 단순한 기술 트렌드를 넘어 기업 경쟁력의 핵심 요소로 자리잡았어요. 그러나 범용 LLM만으로는 기업의 특화된 업무를 수행하기 어려워요. 의료 기관은 의료 용어와 진단 프로세스를, 법률 사무소는 판례와 법률 해석을, 금융 기관은 리스크 분석과 규제 준수를 이해하는 AI가 필요해요.
LLM은 어떻게 만들어지나요?
LLM 제작은 사전학습(Pre-training), 파인튜닝(Fine-tuning), 강화학습(RLHF)의 3단계로 진행돼요. 각 단계는 서로 다른 목적과 자원 요구사항을 가지며, 기업이 직접 수행하는 범위는 대부분 파인튜닝 단계에 해당해요.
1단계: 사전학습(Pre-training)
사전학습은 모델에게 언어의 기본 구조와 세상의 지식을 가르치는 단계예요. 인터넷 웹페이지, 위키피디아, 책, 뉴스 기사 등 수조 개의 단어를 학습하며, 핵심 방식은 *"다음에 올 단어가 무엇일까?"*를 예측하는 Next Token Prediction이에요. 필요 자원은 수천–수만 개의 고성능 GPU(H100/A100)이고, 수개월에서 수년이 소요돼요.
2단계: 파인튜닝(Fine-tuning)
파인튜닝은 사전학습된 모델을 특정 작업이나 도메인에 맞게 최적화하는 단계예요. 사전학습보다 훨씬 적은 데이터와 자원으로 특화된 성능을 얻을 수 있어서, 대부분의 기업 AI 프로젝트가 이 단계에서 시작해요. 고품질 도메인 데이터의 질이 양보다 중요해요.
3단계: 강화학습(RLHF)
RLHF(Reinforcement Learning from Human Feedback)는 인간의 선호도를 학습해 더 유용하고 안전한 답변을 생성하도록 개선하는 단계예요. ChatGPT가 단순한 텍스트 생성기가 아닌 *"도움이 되는 어시스턴트"*가 된 핵심 기술이에요.
기업이 자체 LLM 파인튜닝을 해야 하는 이유는 무엇인가요?
범용 LLM(ChatGPT, Claude 등)은 일반적인 질문에 뛰어나지만, 기업 고유의 업무 프로세스, 내부 데이터, 도메인 전문성을 반영하지 못해요. 파인튜닝을 통해 기업만의 AI 경쟁력을 확보할 수 있어요.
도메인 전문성 확보. 의료, 법률, 금융 등 전문 분야에서 범용 LLM의 정확도는 70–80% 수준이에요. 파인튜닝을 통해 90% 이상의 도메인 특화 정확도를 달성할 수 있어요.
데이터 보안 및 주권 확보. 외부 API를 사용하면 기업의 민감한 데이터가 외부로 전송돼요. 자체 파인튜닝 모델은 온프레미스 환경에서 운영할 수 있어서 규제 산업에서 필수예요.
장기적 비용 효율성. API 사용량이 늘어날수록 비용이 기하급수적으로 증가해요. 자체 모델은 초기 투자 후 호출당 비용이 거의 0에 수렴해서, 대규모 사용 시 TCO가 크게 절감돼요.
AI 모델은 어떻게 학습하나요?
AI 학습의 핵심은 순전파(Forward Propagation) → 손실 계산(Loss Calculation) → 역전파(Backpropagation) → 가중치 업데이트의 사이클이에요. 모델이 예측하고, 오차를 측정하고, 오차를 줄이는 방향으로 파라미터를 조정하는 과정을 수억 번 반복해요.
순전파와 역전파 — 학습의 양대 축
순전파는 입력 데이터가 신경망을 통과하며 예측값을 생성하는 과정이에요. 역전파는 예측값과 정답의 차이(오차)를 출력층에서 입력층 방향으로 전파하며 각 가중치의 기여도를 계산해요. 시험을 보고 틀린 문제를 복기하며 "어디서 실수했는지" 역추적하는 것과 같아요.
핵심 공식은 간단해요. 새로운 가중치 = 이전 가중치 - (학습률 × 기울기). 학습률(Learning Rate)은 한 번에 가중치를 얼마나 크게 변경할지를 결정하며, 일반적으로 0.001–0.0001 범위에서 시작해요.
Transformer 아키텍처 — LLM의 심장
Transformer는 2017년 Google이 발표한 "Attention is All You Need" 논문에서 제안된 혁신적 신경망 구조예요. 기존 RNN/LSTM의 순차 처리 방식을 제거하고, Attention 메커니즘만으로 최고 성능을 달성했어요. 병렬 처리가 가능해서 학습 속도가 10배 이상 향상됐어요.
핵심 메커니즘인 Self-Attention은 문장 내 모든 단어 간의 관계를 동시에 파악해요. *"The teacher read the book"*에서 "teacher"가 "read", "book"과 얼마나 관련되는지 자동으로 계산하죠.
파인튜닝 기법에는 어떤 것들이 있나요?
파인튜닝 기법은 **전체 파인튜닝(Full Fine-tuning)**과 **PEFT(Parameter-Efficient Fine-Tuning)**로 나뉘어요. PEFT는 LoRA, QLoRA 등의 기법으로 메모리 사용량을 1/4–1/10로 줄이면서도 유사한 성능을 달성해요.
기법 | 파라미터 업데이트 | 70B 모델 메모리 | 필요 GPU |
|---|---|---|---|
Full Fine-tuning | 100% | 1,120–1,680GB | 14+ A100 80GB |
LoRA | 0.1–1% | 280–350GB | 4–5 A100 80GB |
QLoRA (8비트) | 0.1–1% | 280–420GB | 4 A100 40GB |
QLoRA (4비트) | 0.1–1% | 140–210GB | 2–3 A100 80GB |
Full Fine-tuning은 모델의 모든 파라미터를 업데이트하는 방식으로, 가장 강력한 성능 향상이 가능하지만 메모리 요구가 커요. LoRA는 원본 모델 가중치를 동결하고 저랭크 분해 행렬(어댑터)만 학습해서 학습 파라미터 수를 0.1–1%로 감소시켜요. QLoRA는 LoRA에 양자화를 결합해 메모리를 더 줄이고, 70B 모델을 4비트 QLoRA로 파인튜닝하면 소비자급 GPU로도 가능해요.
학습과 추론의 차이는?
**학습(Training)**은 모델 파라미터를 조정하는 과정이고, **추론(Inference)**은 학습된 모델로 예측을 수행하는 과정이에요. 학습은 역전파가 필요해서 메모리 소비가 10–20배 높아요.
구분 | 학습 (Training) | 추론 (Inference) |
|---|---|---|
계산 | 순전파 + 역전파 + 옵티마이저 | 순전파만 수행 |
메모리 | 파라미터 × 16–24바이트 | 파라미터 × 2–4바이트 |
시간 | 수일–수개월 | 밀리초–초 단위 |
하드웨어 | 고성능 GPU 클러스터 필수 | 상대적으로 낮은 사양 가능 |
예를 들어, 7B 모델의 경우 추론에는 14GB VRAM이면 충분하지만, 학습에는 112–168GB VRAM이 필요해요. 이 10배의 차이가 기업 인프라 설계에서 핵심 고려사항이에요.
파인튜닝을 위한 데이터셋은 어떻게 구축하나요?
AI 모델의 성능은 학습 데이터의 품질에 직접 의존해요. *"쓰레기를 넣으면 쓰레기가 나온다(Garbage In, Garbage Out)"*는 AI의 불변 법칙이에요.
고품질 학습 데이터의 조건은 네 가지예요. 충분한 양(파인튜닝에는 최소 1,000–10,000개의 샘플 권장), 높은 품질(정확한 라벨, 일관된 포맷, 최소한의 노이즈), 다양성(다양한 상황과 엣지 케이스 포함), 균형(클래스 간 데이터 비율 적절).
데이터 라벨링은 수집 → 선별 → 오토라벨링 → 검수 → 분할의 과정을 거쳐요. AI 기반 오토라벨링으로 초안을 생성하고, 전문가가 검수하는 Human-in-the-Loop 방식이 효율적이에요. 최종 데이터는 학습(70–80%), 검증(10–15%), 테스트(10–15%)로 분할해요.
LLM 학습에 GPU가 필수인 이유는?
딥러닝의 핵심 연산은 **행렬 곱셈(Matrix Multiplication)**이에요. GPU는 수천 개의 코어로 이 연산을 동시에 처리해 CPU 대비 10–100배 빠른 학습을 가능하게 해요. LLM처럼 수십억 개의 파라미터를 가진 모델은 GPU 없이는 사실상 학습이 불가능해요.
CPU는 수십 개의 코어로 범용 순차 처리에 특화되어 있고, GPU는 수천–수만 개의 코어(H100: 14,592개)로 대규모 병렬 처리에 최적화돼 있어요. 100만 개의 숫자를 2배로 만드는 작업을 비교하면, CPU(4코어)는 약 25만 단위 시간, GPU(10,000코어)는 약 100 단위 시간에 완료해서 2,500배 빠른 성능을 보여줘요.
CUDA 코어는 NVIDIA GPU의 기본 연산 장치로, 1 Clock에 1개의 FP32 연산을 수행해요. Tensor 코어는 AI 전용 특수 연산 장치로, 4×4 행렬의 곱셈-누적 연산을 한 번에 수행해요. 1 Clock에 64개의 부동소수점 연산을 처리해 CUDA 코어 대비 128배 빠른 처리량을 제공해요.
모델 크기별 GPU 메모리는 얼마나 필요한가요?
LLM의 크기는 파라미터 수로 표현돼요. 각 파라미터는 정밀도에 따라 다른 메모리를 차지해요. FP32는 4바이트, FP16/BF16은 2바이트, INT8은 1바이트, FP4는 0.5바이트예요. 7B 모델은 FP16 기준 14GB가 필요해요.
학습 메모리 = 파라미터 × 16–24바이트 (추론의 10–20배). 예를 들면 7B 모델 추론이 14GB이라면 학습에는 112–168GB가 필요해요.
모델 크기 | FP16 로딩 | Full Fine-tuning | QLoRA (4비트) | 필요 GPU |
|---|---|---|---|---|
1B | 2GB | 16–24GB | 4–6GB | RTX 4090 1개 |
7B (Llama 2/3) | 14GB | 112–168GB | 28–42GB | A100 80GB 2개 |
13B | 26GB | 208–312GB | 52–78GB | A100 80GB 4개 |
30B | 60GB | 480–720GB | 120–180GB | H100 80GB 8개 |
70B (Llama 3) | 140GB | 1,120–1,680GB | 280–420GB | H100 80GB 14개+ |
175B (GPT-3) | 350GB | 2,800–4,200GB | 700–1,050GB | DGX H100 4대+ |
405B (Llama 3.1) | 810GB | 6,480–9,720GB | 1,620–2,430GB | 대규모 클러스터 |
H100 vs A100 vs RTX, 어떤 GPU를 선택해야 하나요?
GPU 선택은 *모델 크기, 예산, 용도(학습/추론)*에 따라 결정돼요. H100은 최고 성능, A100은 검증된 가성비, RTX 시리즈는 소규모 실험에 적합해요.
NVIDIA H100 SXM5는 14,592개 CUDA 코어, 4세대 Tensor 코어(FP8 지원), 80GB HBM3 메모리, 3.35TB/s 대역폭, 900GB/s NVLink에 700W 전력을 사용해요. Transformer Engine을 통해 FP8과 FP16 간 동적 전환으로 정확도 손실 없이 A100 대비 LLM 학습 9배, 추론 30배의 성능을 보여줘요.
NVIDIA A100 80GB는 6,912개 CUDA 코어, 3세대 Tensor 코어, 80GB HBM2e 메모리, 2TB/s 대역폭, 600GB/s NVLink를 제공해요. 검증된 AI 워크호스로 가장 널리 채택되고 있죠.
RTX 시리즈는 소규모 실험에 적합해요. RTX 4090(24GB)은 개인 연구와 소규모 파인튜닝에, 7B 추론과 1B 파인튜닝이 가능해요. RTX A6000(48GB)은 워크스테이션용으로 13B 추론과 7B 파인튜닝이 가능해요.
선택 기준 요약
용도 | 권장 GPU |
|---|---|
70B+ 대형 모델 학습 | H100 SXM5 |
실시간 추론 서비스 | H100 또는 L40S |
중소규모 모델 (7B–30B) | A100 80GB |
비용 최적화 | A100 40GB + QLoRA |
소규모 실험/프로토타입 | RTX 4090 |
워크스테이션 | RTX A6000 / RTX 6000 Ada |
DGX 시스템이란? 턴키 AI 인프라
NVIDIA DGX는 8개의 고성능 GPU, NVSwitch, InfiniBand 네트워크, 대용량 스토리지를 통합한 턴키 AI 서버예요. 개별 부품을 조립하는 것보다 최적화된 성능과 안정성을 제공해요.
DGX H100 시스템은 **8× NVIDIA H100 SXM5(총 640GB GPU 메모리), 4× NVSwitch(7.2TB/s 양방향 대역폭), 2× Intel Xeon Platinum 8480C(총 112코어), 2TB DDR5 시스템 메모리, 30TB NVMe SSD, 10× ConnectX-7(400Gb/s InfiniBand)**를 통합했어요. 전력은 최대 10.2kW이며, FP8 정밀도로 32 PFLOPS의 성능을 제공해요.
DGX H100 한 대로 30B 모델의 Full Fine-tuning이 가능해요. 70B 이상의 대형 모델은 여러 대의 DGX를 InfiniBand로 연결한 클러스터 구성이 필요해요.
GPT-4 학습에는 GPU가 몇 개 필요했을까요?
GPT-4 학습에는 10,000–25,000개의 A100 GPU가 사용된 것으로 추정돼요. 학습 기간은 수주에서 수개월이 소요됐고, GPU 하드웨어 비용은 약 $750M으로 추산돼요.
GPT-5의 규모에 따라 필요한 GPU 수는 크게 달라져요. 3T 파라미터, 30T 토큰 시나리오 기준으로 H100급 GPU 6,900–77,000개가 필요할 것으로 추정돼요.
분산 학습에 NVLink와 InfiniBand가 필요한 이유는?
대형 LLM 학습은 여러 GPU에 모델과 데이터를 분산시켜 진행해요. GPU 간 그래디언트 동기화가 빈번히 발생하므로, 고속 인터커넥트 없이는 네트워크가 병목이 돼요.
NVLink는 NVIDIA가 개발한 GPU 전용 고속 인터커넥트로, 같은 서버 내 GPU 간 직접 통신을 제공해요. H100의 NVLink 4.0은 GPU당 900GB/s 양방향 대역폭을 제공하며, 이는 PCIe Gen5 대비 5–10배 빠른 속도예요.
InfiniBand는 서버와 서버를 연결하는 고성능 데이터센터 네트워크 표준이에요. 핵심 기술인 **RDMA(Remote Direct Memory Access)**는 CPU를 거치지 않고 원격 서버 메모리에 직접 접근해 지연시간을 600ns 이하로 줄이죠.
대규모 AI 데이터센터는 두 기술을 결합해요. NVLink로 노드 내 GPU 간 최대 성능을 확보하고, InfiniBand로 노드 간 확장 및 클러스터링을 구현해요.
AI 서버의 전력과 냉각은 어떻게 해결하나요?
AI 서버의 고전력 밀도(GPU당 350–700W)는 막대한 발열을 초래해요. DGX H100 한 대가 최대 10.2kW를 소비하며, 기존 공랭식으로는 20kW 이상의 랙을 감당하기 어려워요. 수량식과 액침냉각이 차세대 솔루션으로 부상하고 있죠.
공랭식은 전통적이고 저렴하지만 높은 소음(DGX H100: 최대 101dB)과 전체 전력의 40%를 냉방에 사용해요. 수량식은 냉각수 순환으로 발열을 제어하고, 높은 전력 밀도를 지원해요.
액침냉각은 서버 전체를 비전도성 냉각유에 담가 냉각하는 방식이에요. SKT의 2023년 검증 결과, 냉방전력 93% 절감, 서버전력 10% 이상 절감, 총 전력 37% 절감을 달성했어요.
기업 규모별 GPU 서버 권장 구성은?
GPU 인프라 구성은 목표 모델 크기, 예산, 확장 계획을 종합적으로 고려해야 해요.
소규모 스타트업/연구실 (7B–13B 파인튜닝): GPU로 2–4× RTX 4090(24GB) 또는 2× RTX A6000(48GB), CPU는 Intel Xeon Silver 또는 AMD EPYC 7002 시리즈, RAM 128–256GB DDR4, 2–4TB NVMe SSD, 10GbE 네트워크 구성으로 7B Full Fine-tuning과 13B QLoRA가 가능해요.
중형 기업/연구소 (30B–70B 파인튜닝): GPU로 4–8× A100 80GB 또는 4× H100 80GB, 2× Intel Xeon Platinum 또는 AMD EPYC 7003, RAM 1–2TB DDR4/DDR5, 20–50TB NVMe SSD, 100GbE 또는 InfiniBand HDR로 70B LoRA, 30B Full Fine-tuning이 가능해요.
대기업/국가 연구기관 (175B+ 사전학습): GPU로 32–256× H100(DGX H100 4–32대), InfiniBand NDR(400Gb/s) 네트워크, 페타바이트급 분산 스토리지(Ceph, Lustre), 400kW–3.2MW 전력, 수량식 또는 액침냉각 필수로 GPT-3/4 규모 사전학습이 가능해요.
클라우드 GPU vs 온프레미스, 어느 것이 유리한가요?
클라우드는 초기 투자 없이 즉시 사용 가능하지만, 장기 사용 시 비용이 급증해요. 온프레미스는 18–24개월 후 손익분기점을 넘기며, 장기적으로 비용 효율적이에요.
클라우드 GPU 선택이 유리한 경우는 단기 프로젝트, 가변적 수요, 초기 자본 부족, 빠른 시작이 필요한 경우예요. 유연한 확장/축소, 즉시 사용 가능, 최신 하드웨어 접근이 장점이에요.
온프레미스 선택이 유리한 경우는 18개월 이상 운영, 안정적 수요, 데이터 보안이 중요한 경우예요. *장기 비용 절감(18개월 후), 데이터 보안 및 통제, 전용 자원, 대기 시간 없음, 성능 최적화(+20–30%)*가 장점이에요.
정리하자면
기업 AI 담당자가 기억해야 할 핵심은 일곱 가지예요.
첫째, LLM 학습은 3단계예요. 사전학습(언어 기초) → 파인튜닝(업무 특화) → RLHF(사용자 선호). 기업은 대부분 파인튜닝 단계에서 시작해요.
둘째, 파인튜닝이 필요한 이유는 도메인 정확도 90%+ 달성, 데이터 보안, 장기 비용 절감이에요.
셋째, 파인튜닝 기법 선택은 자원이 충분하면 Full Fine-tuning, 제한적이면 LoRA/QLoRA를 활용해요.
넷째, 메모리 계산법은 학습 메모리 = 파라미터 × 16–24바이트예요(추론의 10–20배).
다섯째, GPU 선택 기준은 70B+는 H100, 중소규모는 A100, 실험은 RTX 4090이에요.
여섯째, 네트워크 필수예요. 분산 학습에 NVLink(노드 내)와 InfiniBand(노드 간)가 필수예요.
일곱째, TCO 분석을 해야 해요. 18–24개월 이상 사용 시 온프레미스가 경제적이에요.
AI 인프라 구축이 고민될 때, 엑스디노드에 편하게 문의해 주세요. 워크로드와 예산에 맞춰 최적의 GPU 서버 구성을 함께 고민해드릴게요.






