마이크로소프트 rStar2-Agent, 저비용으로 고성능 추론 LLM 훈련

마이크로소프트 rStar2-Agent, 저비용으로 고성능 추론 LLM 훈련

마이크로소프트 rStar2-Agent, 저비용으로 고성능 추론 LLM 훈련


기사 요약

  • MS 리서치는 rStar2-Agent 강화학습 프레임워크로 복잡한 추론 과제를 수행하는 LLM을 기존 대비 훨씬 낮은 비용과 데이터로 훈련했습니다.
  • 고성능 인프라, GRPO-RoC 알고리즘, 단계적 훈련 레시피를 결합해 도구 사용을 안전·효율적으로 확장했습니다.
  • 14B 모델이 AIME24에서 80.6%로 거대 모델을 앞섰고 더 짧은 답변으로 비용을 낮춰, 기업용 에이전트와 소형 오픈소스 모델에 실질적 이점을 보여줍니다.

새 강화학습 프레임워크 개요

Microsoft Research는 rStar2-Agent라는 새로운 강화학습 프레임워크를 공개했습니다. 알고리즘 혁신과 소프트웨어 최적화를 결합해 학습 효율을 끌어올리고, 더 적은 데이터와 낮은 비용으로 복잡한 추론 과제를 수행하는 대규모 언어 모델을 훈련합니다. 이 접근은 긴 답변 대신 더 정확하고 간결한 추론을 유도해 실사용 가치와 비용 효율을 동시에 높입니다.

‘더 길게’에서 ‘더 똑똑하게’로

기존 모델은 사고 사슬(CoT)을 길게 생성해 성능을 올리는 경향이 있지만, 긴 추론 중 한 번의 실수가 전체 결과를 망칠 수 있고 자기 검토만으로는 오류를 잡기 어렵습니다. 연구진은 도구 사용, 결과 검증, 피드백 학습 등 고급 인지 능력을 부여하는 에이전트형 강화학습으로 전환을 제안합니다. 모델은 전용 환경에서 도구와 상호작용하며 피드백을 받아 추론을 수정·개선합니다.

작동 방식

도구 중심 상호작용 루프

연구진은 Python 코드와 인터프리터를 도구 환경으로 채택했습니다. 모델은 중간 추론을 생성하고, Python 도구를 호출해 계산·검증을 수행한 뒤, 결과를 다음 단계 추론에 반영하는 다중 턴 루프를 반복합니다. 이런 도구 중심 에이전트 학습을 rStar2-Agent가 체계적으로 구현해, 일반 CoT를 보완하고 중간 단계 검증을 가능하게 합니다.

확장 시 발생하는 잡음과 인프라 부담

프로그래밍 도구의 복잡성은 에러 메시지 등 환경 잡음을 유발해 추론을 흐릴 수 있습니다. 또한 대규모 학습에서는 한 배치에서만 수만 번의 도구 호출이 발생해, 안전하고 효율적인 관리가 필수입니다.

핵심 혁신 3가지

1) 효율적이고 신뢰할 수 있는 인프라

격리된 고처리량 코드 실행 환경은 스텝당 최대 45,000개의 동시 도구 호출을 평균 0.3초 지연으로 처리합니다. RL의 비동기 롤아웃 길이 차이로 생기는 비효율을 줄이기 위해, 로드밸런싱 스케줄러가 GPU 전반에 요청을 동적으로 분산해 장치 유휴 시간을 최소화합니다. 예측 불가능하거나 안전하지 않은 LLM 출력이 시스템을 흔드는 위험을 완화하도록 설계됐습니다.

2) GRPO-RoC 알고리즘

기반 알고리즘인 GRPO(그룹 상대 정책 최적화)는 문제당 여러 추론 경로를 생성하고 정오 보상으로 정책을 갱신합니다. RoC(Resample on Correct)는 잡음 많은 도구 환경에 맞춰 학습 신호 품질을 높입니다. 큰 그룹을 과표본한 뒤 훈련 배치를 재구성하며, 도구 유발 오류·포맷 문제가 적은 고품질 정답 경로만 남기고, 실패 경로는 다양한 실패 양상을 보존하도록 다운샘플링합니다. 그 결과, 예를 들어 자동 코드 에이전트가 불필요하게 긴 오류 코드를 양산하는 대신, 첫 실행에 통과하는 간결하고 정확한 스크립트를 산출하도록 학습됩니다.

3) 맞춤형 훈련 레시피

초기 단계는 복잡한 추론 대신 지도 미세조정(SFT)으로 지시문 따르기와 도구 호출 포맷 등 기본기를 익힙니다. 이후 문제 난이도와 최대 응답 길이를 점진적으로 늘리는 다단계 RL을 진행합니다. 다른 방법이 16,000토큰 이상의 긴 응답을 필요로 하는 데 비해, 본 레시피는 8,000토큰에서 시작해 12,000토큰으로 확장하며 효율을 유지합니다.

실험과 성능 결과

연구진은 Qwen3-14B-base를 64대의 AMD MI300X GPU로 단 1주 동안 510 스텝만에 미세조정했습니다. rStar2-Agent-14B는 AIME24 벤치마크에서 평균 80.6%로 OpenAI o3-mini, DeepSeek-R1(671B), Claude Opus 4.0(thinking)을 능가했습니다. 연구진은 본 성과의 핵심이 특정 크기 모델이 아니라 방법 자체에 있으며, 더 큰 모델에 적용하면 추론 성능이 더욱 강화될 것으로 내다봅니다.

엔터프라이즈 시사점과 비용 절감

모델은 더 적은 토큰으로 더 높은 정확도를 내며, 짧은 응답은 곧바로 낮은 추론 비용과 더 빠른 처리로 이어집니다. 수학 문제만으로 훈련했음에도 GPQA-Diamond 과학 평가에서 DeepSeek-V3를 앞서는 등 일반화 능력을 보였습니다. rStar2-Agent는 소형 특화 모델의 효율적 개발은 물론, 동일한 신뢰성과 효율 원칙을 차세대 대형 모델로 확장할 경로를 제시합니다.

일반화와 향후 적용

이 에이전트·도구 중심 접근은 신약 탐색(화학·생물 데이터베이스 접근 및 시뮬레이션), 법률 분석, 금융 모델링 등 고부가가치 영역으로 확장될 수 있습니다. 다만 Python 인터프리터처럼 구조화된 세계에서 벗어나 실제 엔터프라이즈 도구로 옮기면 환경 잡음이 커지므로, LLM이 상호작용할 신뢰성 높은 전용 실행 환경이 요구됩니다. 이 복잡성을 성공적으로 다루는 것이 기업용 에이전트형 AI의 다음 물결을 여는 관건입니다.