leangnews
Command Palette
Search for a command to run...
2025년 10월 30일 11:00
Nvidia, 4비트로 8비트 성능 구현한 LLM 학습 ‘NVFP4’ 공개
기사 요약
- 엔비디아의 NVFP4는 4비트 LLM 학습으로 8비트(FP8)에 근접한 안정성과 정확도를 달성하며 메모리와 연산 비용을 절반 수준으로 낮춘다.
- 다단계 스케일링과 혼합 정밀도 전략, 그래디언트 계산 보정으로 이상치와 저정밀 연산 편향을 제어해 민감한 층의 안정성을 BF16으로 보존했다.
- 120억 매개변수 모델을 10조 토큰으로 학습한 결과 FP8과 유사한 손실·정확도를 보였고, MXFP4 대비 동일 성능에 36% 더 적은 데이터로 수렴해 추론과 비용 효율을 크게 높였다.
NVFP4로 4비트 LLM 학습, 8비트에 근접한 정확도
엔비디아 연구진은 대규모 언어모델(LLM)을 4비트로 양자화해도 고정밀 모델 수준의 안정성과 정확도를 유지하는 학습 기법을 제안했다. 새로운 형식인 NVFP4는 기존 4비트 방식보다 높은 성능을 보이면서도 8비트(FP8)와 맞먹는 결과를 내며, 메모리 사용량과 연산 요구를 크게 줄인다. 이는 같은 성능을 더 작은 모델로 구현해 추론 비용을 낮추고, 더 많은 조직이 처음부터 자체 모델을 학습할 수 있는 길을 연다는 점에서 의미가 크다.
양자화의 과제와 배경
모델 양자화는 FP32·BF16 같은 고정밀 가중치를 더 낮은 정밀도의 수 형식으로 변환해 학습과 추론의 연산·메모리 비용을 낮추는 기술이다. 최근 산업 표준으로 자리잡은 FP8은 정확도 손실을 최소화하면서 비용 대비 성능을 크게 개선했다. 다음 단계인 FP4는 이론적으로 메모리를 다시 절반으로 줄이지만, MXFP4 등 기존 4비트 형식은 정확도 유지가 어려워 비용과 성능 사이에서 타협을 강요해 왔다.
NVFP4는 어떻게 동작하나
4비트는 표현 가능한 값이 16개로 매우 제한적이라, 고정밀에서 변환할 때 이상치가 분포를 왜곡해 정확도를 해칠 수 있다. NVFP4는 다단계 스케일링으로 이러한 이상치를 정교하게 다루어 “훈련 중 텐서 값을 더 정밀하고 정확하게 표현”하도록 설계됐다. 여기에 혼합 정밀도 전략을 도입해 대부분의 층은 4비트로 양자화하고, 수치적으로 민감한 일부 핵심 층은 BF16 등 고정밀로 유지해 필요한 지점의 안정성을 보장한다. 또한 역전파 시 그래디언트 계산 방식을 조정해 저정밀 연산에서 누적될 수 있는 편향을 줄였다.
NVFP4 성능 검증
연구진은 120억 매개변수의 하이브리드 맘바-트랜스포머 모델을 10조 토큰으로 학습해 FP8 기준선과 직접 비교했다. 결과적으로 NVFP4 모델의 학습 손실과 다운스트림 정확도 곡선은 전 과정에서 FP8과 거의 겹쳤고, 지식 추론·수학·상식 등 다양한 영역에서 성능을 유지했으며 후반부 코딩 벤치마크에서만 소폭 격차가 나타났다. 연구진은 “수십억 매개변수 모델을 4비트 정밀도로 수조 토큰 규모까지 안정적으로 학습한 첫 사례”라고 밝혔다.
MXFP4 대비 이점
대안적 4비트 형식인 MXFP4와의 비교에서도 차이가 뚜렷하다. 80억 매개변수 모델 실험에서 NVFP4는 더 낮은 손실로 수렴했으며, MXFP4가 같은 성능에 이르려면 36% 더 많은 데이터(토큰 1.36배)가 필요했다. 이는 학습 시간과 비용의 실질적 증가로 이어진다.
추론 및 산업적 함의
엔비디아 AI·데이터센터 GPU 제품 담당 디렉터 샤르 나라심한은 NVFP4가 “8비트 수준의 정확도를 거의 유지하면서도 개발자와 기업이 더 큰 모델과 더 빠른 실험을 가능케 한다”고 설명했다. FP8 역시 FP16 대비 도약이지만, 여전히 메모리·대역폭 제약이 남아 모델 크기와 추론 성능을 제한한다. 그는 “NVFP4는 그 한계를 깨고 동급 품질에 더 큰 확장 여지를 제공한다”고 강조했다. 더 작고 효율적인 모델은 실시간 고품질 응답과 에이전틱 애플리케이션에서의 처리량·지연 시간 개선을 동시에 노리게 해, 모델 개발에서 실서비스까지의 ROI 도달 시간을 단축할 수 있다.
실제 적용 예시
NVFP4 도입 전 필수 체크리스트
타깃 모델의 수치적으로 민감한 모듈 식별 여부, 데이터 분포의 이상치 특성 파악과 스케일링 정책 적합성, 혼합 정밀도 정책(BF16 유지 비율) 정의, 학습 프레임워크의 4비트 커스텀 커널·스케일링 지원성, 평가 지표(학습 손실·다운스트림 정확도·추론 처리량)와 조기 중단 기준 사전 설정, 비용·전력 예산과 메모리 여유분 검토를 점검한다.
NVFP4 훈련 프로세스 단계별 안내
1) 기준선으로 FP8 학습 설정을 확정한다. 2) 다단계 스케일링을 적용해 대부분의 층을 4비트로 양자화하고 민감한 층은 BF16으로 유지한다. 3) 역전파 그래디언트 스케일링·클리핑 등 편향 보정 기법을 구성한다. 4) 대규모 토큰(예: 수조 단위)에서 안정성 지표를 모니터링하며 학습한다. 5) 지식 추론·수학·상식·코딩 등 다운스트림 벤치마크로 FP8 대비 성능 차이를 검증한다. 6) 동일 목표 성능 달성에 필요한 토큰 수를 측정해 MXFP4 등 대안과 비용·시간을 비교한다.