leangnews

2025년 11월 18일 09:02

구글·UCLA, 소형 LLM 추론 성능 끌어올린 ‘지도 강화학습(SRL)’

구글·UCLA, 소형 LLM 추론 성능 끌어올린 ‘지도 강화학습(SRL)’


기사 요약

  • 구글 클라우드와 UCLA가 제안한 지도 강화학습(SRL)이 소형 LLM의 매우 어려운 다단계 추론 학습 능력을 크게 개선했다.

소형 모델의 복잡 추론을 가능하게 한 지도 강화학습

구글 클라우드와 UCLA 연구진은 복잡한 다단계 추론을 학습하도록 돕는 새로운 훈련 프레임워크, 지도 강화학습(SRL)을 제안했다. SRL은 문제 풀이를 연속적 의사결정으로 재구성해 훈련 과정 전반에 풍부한 학습 신호를 제공하며, 소형이면서 비용 효율적인 모델의 추론 능력을 한 단계 끌어올린다.

현재 LLM 추론 훈련의 한계

최근 추론 성능 향상은 최종 정답의 정합성에 따라 보상을 주는 RLVR에 크게 의존해 왔다. 그러나 롤아웃 횟수가 제한되고 비용이 큰 탓에, 매우 어려운 문제에서는 정답을 거의 찾지 못해 학습이 막히기 쉽다. 여러 단계를 대부분 맞추고도 한 번의 실수로 최종 오답이 되면 전부 패널티로 처리되어, 부분적으로 올바른 추론에서 배울 기회를 잃는다. 반면 SFT는 전문가 해설 전체를 모방하도록 학습시키지만, 데이터가 비싸고 희소한 데다 과적합 위험이 커 일반화가 어렵다. 이 공백이 특히 소형 오픈소스 모델의 고난도 문제 학습을 가로막아 왔다.

지도 강화학습(SRL)은 어떻게 작동하나

SRL은 결과 중심 RL과 모방 학습 사이의 중간 지점을 택한다. 최종 정답만 최적화하거나 전문가의 전 과정을 그대로 따라 하게 만드는 대신, 전문가 추론의 골격을 이루는 핵심 ‘행동’ 시퀀스를 재현하도록 가르친다. 수학 문제라면 대수 전개 같은 조작이, 소프트웨어 에이전트라면 코드 저장소에서의 명령 실행이 하나의 행동이 된다. 강력한 교사 모델이 생성한 해법 경로(trajectory)를 토대로 소형 모델을 훈련한다.

내부 독백과 단계별 보상

훈련 시 모델은 행동을 확정하기 전에 먼저 내부 추론(<think> 태그로 표기)을 생성한다. 각 단계에서 모델의 예측 행동이 전문가 행동과 얼마나 유사한지에 따라 보상이 주어지며, 이 촘촘한 단계 보상은 전체 답이 틀려도 학습을 가능하게 해 RLVR의 희소 보상 문제를 해소한다. 이러한 설계가 지도 강화학습의 실효성을 높인다.

현실 과제에 맞춘 유연성

연구진에 따르면 실제 문제 해결은 정해진 해법만 있는 것이 아니라 여러 합리적 경로가 공존한다. 지도 강화학습은 각 단계에서 ‘좋은 추론’의 기준을 제시하면서도 전략적 유연성을 허용해, 데이터 사이언스 자동화나 공급망 최적화처럼 중간 추론의 건전성이 중요한 분야에 적합하다.

실험 결과와 효율성

연구진은 수학 추론과 에이전틱 소프트웨어 엔지니어링 벤치마크 모두에서 SRL이 강력한 기준선들을 유의미하게 앞섰음을 확인했다. 또한 계획 수립과 자기 검증을 교차 배치하는 등 더 정교한 추론 패턴이 관찰되었고, 이는 답변을 불필요하게 길게 만드는 대신 질을 끌어올렸다. 토큰 사용량도 기준 모델과 대체로 비슷해, 지도 강화학습은 추론 비용을 늘리지 않으면서 성능을 향상시키는 것이 핵심임이 드러났다.

수학·코딩 에이전트 벤치마크

수학 영역에서 연구진은 Qwen2.5-7B-Instruct를 어려운 문제 1,000문항으로 미세 조정해, SFT와 RLVR(GRPO 알고리즘) 대비 평균 3.0%p의 성능 향상을 얻었다. 소프트웨어 엔지니어링에서는 Qwen2.5-Coder-7B-Instruct를 5,000개의 전문가 에이전트 경로로 훈련해, 원본 베이스 모델과 SFT 기반 SWE-Gym-7B 대비 과제 해결률 14.8%를 기록(후자 대비 상대 74% 향상)하며, 실제 코딩 업무에서의 역량 개선을 입증했다.

새 표준을 향해: SRL과 RLVR의 결합

가장 강력한 결과는 지도 강화학습으로 기초 추론을 학습시킨 뒤 RLVR로 후속 정련을 수행했을 때 나왔다. 이 커리큘럼식 접근은 평균 3.7%p의 추가 향상을 보였고, 후속 RL 단계의 안정성과 해석 가능성, 일반화를 함께 개선했다. 고신뢰가 요구되는 응용에서 지도 강화학습의 기반 학습이 특히 유용하다는 시사점이다.

향후 과제와 데이터 자동 부트스트래핑

에이전틱 과제에서의 종단간 RLVR은 여전히 비용과 복잡도가 높다. 연구진은 고품질 전문가 경로의 자동 생성·선별을 통해 파이프라인을 확장할 수 있다고 전망한다. 강력한 교사 모델은 물론, 학생 모델의 자기 개선을 활용한 데이터 부트스트래핑도 유망하다. 궁극적으로 지도 강화학습을 중심축으로 한 훈련 레시피가 소형 모델의 복잡 추론을 보편화할 가능성이 크다.

이 기사 공유하기