leangnews

2026년 01월 10일 12:01

엔비디아 베라 루빈은 몇 달 남았다, 블랙웰은 지금 더 빨라진다

엔비디아 베라 루빈은 몇 달 남았다, 블랙웰은 지금 더 빨라진다


기사 요약

  • 엔비디아가 CES에서 차세대 GPU 베라 루빈의 성능을 공개했으며 NVFP4 기준 추론 50 PFLOPs, 학습 35 PFLOPs로 블랙웰 대비 각각 5배와 3.5배를 예고했다.
  • 베라 루빈은 2026년 하반기 출시 예정인 반면 블랙웰은 TensorRT-LLM 최적화로 추론 최대 2.8배, 학습 1.4배 향상이 이미 적용됐다.
  • 기업은 지금 블랙웰을 업데이트해 비용을 절감하고, 2026년 말 이후 대규모 증설에는 베라 루빈을 단계적으로 통합하는 전략이 바람직하다.

엔비디아 베라 루빈은 몇 달 남았다 — 블랙웰은 지금 빨라진다

엔비디아는 차세대 GPU인 베라 루빈(Vera Rubin)의 성능을 공개했지만, 실제 공급은 2026년 하반기다. 반면 현재 출하 중인 블랙웰(Blackwell)은 소프트웨어 최적화만으로도 즉시 체감할 성능 향상을 제공하고 있다.

엔비디아 베라 루빈 성능과 출시 일정

젠슨 황 CEO는 CES 기조연설에서 베라 루빈이 NVFP4 기준 추론 50 PFLOPs, 학습 35 PFLOPs를 달성한다고 밝혔다. 이는 블랙웰 대비 각각 5배, 3.5배에 해당하며, 대규모 MoE 등 차세대 모델을 더 적은 GPU 수로 학습하고 더 낮은 토큰 단가로 추론하도록 설계됐다. 다만 엔비디아 베라 루빈은 2026년 하반기부터 이용 가능하다는 점을 감안해야 한다.

블랙웰 추론 2.8배 향상: TensorRT-LLM 최적화

엔비디아는 최근 3개월 사이 블랙웰 GPU 1개당 추론 성능을 최대 2.8배까지 끌어올렸다. 개선은 기존 하드웨어에 그대로 적용되는 TensorRT-LLM 엔진 최적화에서 나왔다. DeepSeek-R1(총 6710억 매개변수 MoE, 토큰당 370억 활성) 기준 측정에서, PDL(Programmatic Dependent Launch)로 커널 런치 지연을 줄이고, 새로운 all-to-all 통신으로 중간 버퍼를 제거해 메모리 오버헤드를 절감했으며, MTP(Multi-Token Prediction)로 한 번의 순전파에 여러 토큰을 생성해 다양한 길이에서 처리량을 높였다. 또한 블랙웰에서 하드웨어 가속되는 NVFP4 4비트 부동소수 형식이 대역폭 요구를 낮추면서 정확도를 유지했다. 결과적으로 백만 토큰당 비용이 줄고, 동일 인프라에서 더 낮은 지연으로 더 많은 요청을 처리할 수 있다.

블랙웰 학습 성능 1.4배 향상

블랙웰은 초대형 LLM 학습에서도 빠르게 개선되고 있다. GB200 NVL72 시스템은 출시 이후 불과 5개월 만에 하드웨어 변경 없이 학습 성능을 최대 1.4배(40% 상승) 끌어올렸다. 핵심은 NVFP4 정밀도를 적극 활용하는 최적화된 학습 레시피로, 초기 FP8 기반 대비 동일 실리콘에서 더 높은 성능을 끌어냈다. 여기에 지속적인 알고리즘 정교화와 소프트웨어 스택 개선이 더해져 배치 효율이 향상됐다.

베라 루빈 vs 블랙웰: 선택 기준과 경제성

엔비디아에 따르면 블랙웰 울트라는 최첨단 AI 워크로드를 위한 현행 최고 수준 플랫폼이다. 동시에 엔비디아 베라 루빈은 커지는 모델 규모와 추론 토큰 요구에 대응해 차세대 MoE 애플리케이션을 가능하게 한다. 내부 초기 테스트 기준으로 베라 루빈은 대형 MoE 학습에 필요한 GPU 수를 1/4로 줄이고, 추론에서는 와트당 처리량을 10배 높이며, 토큰당 비용을 1/10로 낮출 것으로 제시됐다. 양 플랫폼은 같은 모델을 구동할 수 있지만 성능, 효율, 토큰 단가에서 격차가 난다는 점이 선택의 기준이다.

기업을 위한 단계적 도입 전략(엔비디아 베라 루빈 포함)

지금 당장 AI 인프라를 운영 중인 조직은 최신 TensorRT-LLM로 업데이트해 블랙웰의 2.8배 추론·1.4배 학습 향상을 즉시 확보하는 것이 합리적이다. 2026년 상반기 신규 배치를 계획한다면 블랙웰 진행이 지연 리스크를 줄인다. 반면 2026년 하반기 이후 대규모 증설·신규 구축은 엔비디아 베라 루빈을 로드맵에 포함해 전력당 처리량 10배, 토큰당 비용 1/10의 경제성을 활용하도록 설계하는 편이 유리하다. 단계적 도입을 통해 현재 가치를 극대화하면서도 향후 베라 루빈을 매끄럽게 통합해 장기 경쟁력을 확보할 수 있다.

이 기사 공유하기