leangnews

2025년 10월 12일 05:00

엔비디아 RLP: 사전훈련 단계에서 LLM에 ‘생각’을 가르치다

엔비디아 RLP: 사전훈련 단계에서 LLM에 ‘생각’을 가르치다


기사 요약

  • 엔비디아가 강화학습 사전훈련(RLP)으로 사전훈련 단계에서 모델이 내부적으로 ‘생각’한 뒤 다음 토큰을 예측하도록 설계해 추론 능력을 끌어올렸다.
  • RLP는 외부 검증자 없이도 보상 신호를 자동 산출해 유용한 사고만을 강화하며, 수학·과학 벤치마크에서 기존 대비 최대 35%의 상대적 향상을 보였다.
  • 이 방식은 SFT·RLHF를 대체하지 않고 보완해, 동일한 후처리 후에도 7~8% 더 높은 성능을 유지하며 대규모 웹데이터로도 잘 확장된다.

개요

엔비디아 연구진이 대규모 언어모델(LLM)의 추론 학습 방식을 뒤집는 기법을 제안했다. 강화학습 사전훈련(RLP)은 강화학습을 사후가 아니라 사전훈련 단계에 통합해, 모델이 다음 토큰을 예측하기 전에 스스로 내부적인 ‘생각’을 생성하도록 유도한다. 외부 검증자 없이도 일반 텍스트에서 추론을 학습하게 하며, 이후 복잡한 추론 과제에서 의미 있는 성능 향상을 보였다.

전형적 LLM 학습 사이클의 한계

기존에는 방대한 텍스트로 다음 토큰 예측을 학습(사전훈련)한 뒤, 체인 오브 소트(CoT) 같은 복잡한 추론은 지도 미세조정(SFT)이나 인간 피드백 강화학습(RLHF) 단계에서 별도로 익히는 순차 구조였다. 저자들은 인간의 이해가 토큰별로 선형 진행되는 것이 아니라 선지식과 입력을 병렬 통합하는 과정이라고 지적하며, 현재 사전훈련이 이러한 메커니즘을 결여해 초기부터 깊은 추론을 키우기 어렵다고 본다.

강화학습 사전훈련(RLP)의 작동 원리

RLP는 CoT 생성을 다음 토큰 예측에 앞선 하나의 행동으로 재정의한다. 각 단계에서 모델은 먼저 내부 추론 사슬을 만들어 문맥에 덧붙인 뒤 다음 단어를 예측한다. 그리고 생각을 생성하지 않은 기준(순수 다음 토큰 예측) 대비 예측 확률이 얼마나 개선됐는지에 따라 자동으로 보상이 계산된다. 도움이 된 생각에만 양의 보상이 주어지므로, 라벨이나 외부 검증 없이도 유용한 사고를 강화한다.

이 피드백 루프를 통해 모델은 언제 단순한 예측으로 충분하고, 언제 더 깊은 추론이 필요한지 구분하는 습관을 학습한다. 연구진 표현대로 “RLP는 다음 토큰 예측에 가시적으로 기여하는 생각만 보상하도록 설계”되어 있다.

이러한 강화학습 사전훈련(RLP)은 이후의 미세조정 단계를 대체하지 않는다. 엔비디아 응용 딥러닝 연구 부문 부사장 브라이언 카탄자로는 RLP가 SFT·RLHF를 보완해 “모델에 앞서나갈 수 있는 출발선”을 제공함으로써 후속 단계를 더 효과적으로 만든다고 설명한다.

실험 결과와 효율성

Qwen3-1.7B와 Nemotron-Nano-12B로 실시한 수학·과학 추론 벤치마크에서 RLP 적용 모델은 전통적 방식 대비 일관되게 더 높은 점수를 냈으며, 특히 추론 집약적 과제에서 큰 폭의 향상을 보였다. 엔터프라이즈 관점에서는 재무 분석이나 법률 문서 요약 같은 다단계 워크플로의 신뢰도 향상으로 이어질 수 있다. 카탄자로는 “긴 워크플로에서 미묘한 논리 오류를 줄일 수 있다”고 말했다.

중요하게도, 강화학습 사전훈련(RLP)의 효과는 이후 미세조정 단계에서 사라지지 않고 누적됐다. 동일한 후처리 과정을 거친 뒤에도 기준 대비 총점이 7~8% 높게 유지돼, 일명 ‘치명적 망각’을 완화하는 것으로 나타났다. 연구진은 RLP가 “다운스트림 정렬에 씻겨 나가지 않는 견고한 추론 기반”을 마련한다고 결론지었다.

효율성 면에서도 두드러졌다. Qwen3-1.7B에서 표준 연속 사전훈련 대비 17% 향상했고, 유사 기법인 접두 일치 보상 기반 RPT도 앞섰다. 연산량을 맞추기 위해 기준 모델을 데이터 35배로 더 오래 학습시킨 경우에도 우위가 유지돼, 이득이 단순한 계산 증가가 아니라 방법론 자체에서 비롯됨을 확인했다. 또한 범용 웹데이터에서도 추론 신호를 뽑아내는 확장성을 보였고, 하이브리드 Mamba-Transformer 기반 Nemotron-Nano-12B에서는 훨씬 적은 데이터로도 강하게 학습된 기준 대비 35%의 상대적 향상을 달성했다.

실제 적용 예시

재무 분석 다단계 워크플로

복수 분기 실적 요약 → 비정상 항목 식별 → 현금흐름 추정 → 시나리오별 민감도 분석으로 이어지는 파이프라인에서, 강화학습 사전훈련(RLP)을 거친 모델은 단계 간 일관성과 수치 추론 정확도를 높여 보고서의 신뢰도를 끌어올릴 수 있다.

법률 문서 요약 및 검토

계약서 조항 추출 → 위험 조항 교차검증 → 요약 및 근거 제시 과정에서, RLP 학습 모델은 자체 점검적 사고를 활용해 누락·모순을 줄이고 검토 시간을 단축한다. 다만 검증 레이어와 인간 감독은 여전히 필수다.

과학·엔지니어링 문제 해결

수식 전개 → 단위 일치 확인 → 근사치 계산 → 해석 작성의 단계에서, RLP가 강화한 추론 스타일은 사소한 논리 오류를 줄이고 긴 계산 체인에서도 안정적인 답변을 돕는다.

사전훈련의 새로운 기반과 전망

결국 사전훈련은 더 이상 단일한 ‘다음 토큰 예측’ 목표에 머물지 않고, 목표 혼합형으로 진화할 가능성이 크다. “다음 토큰 예측이 세계가 어떻게 보이는지를 가르친다면, RLP 같은 강화학습 목적은 그것을 어떻게 생각할지를 가르친다”는 비유처럼, 두 목표의 결합은 더 이른 시점부터 구조화된 사고를 정립하게 만든다.

아직 사전훈련 단계의 강화학습 동학에는 배울 점이 많지만, 훈련 초기에 탐색을 도입하는 것은 크기만이 아니라 모델이 ‘어떻게 추론을 배우는가’라는 축에서의 새로운 스케일링을 연다는 점이 분명하다.

이 기사 공유하기