텐센트 Parallel-R1, LLM에 ‘병렬 사고’를 학습시키는 RL 기법

작성일시 2025년 09월 26일 05:0290조회수

텐센트 Parallel-R1, LLM에 ‘병렬 사고’를 학습시키는 RL 기법

Table of Contents

기사 요약

텐센트 AI Lab 시애틀과 메릴랜드대 연구진은 LLM이 추론 시간 스케일링을 더 효과적으로 쓰도록 돕는 강화학습 기법 Parallel-R1을 공개했다.
이 기법은 콜드스타트 데이터로 형식을 익히고 쉬운 수학 RL의 보상 교대 전략을 거쳐 일반 수학 RL로 병렬 분기-요약 능력을 안정화·일반화한다.
Qwen-3-4B-Base를 AIME·AMC·MATH 등에서 평가한 결과 표준 RL 대비 일관된 향상을 보였으며, 기업 현장에 효율적 추론 확장을 제시한다.

개요

텐센트 AI Lab 시애틀과 메릴랜드대 연구팀은 Parallel-R1을 통해 LLM이 답안을 생성할 때 여러 추론 경로를 동시에 전개하고 요약해 수렴하도록 학습시키는 방식을 제안했다. 이 접근은 고가의 수작업 라벨 없이도 추론 시간 스케일링을 활용해 복잡한 문제에서 더 견고하고 정확한 결론에 도달하도록 돕는다.

병렬 사고의 가치와 기존 접근

동시에 여러 추론선을 탐색하는 병렬 사고는 국제수학올림피아드에서 구글의 Gemini Deep Think 성과와 맞물려 주목받았다. 초기에는 다답 생성 후 일치도를 고르는 ‘best of N’ 같은 브루트포스가 쓰였고, 이후 MCTS나 Tree of Thoughts가 세밀한 제어를 제공했지만 수작업 규칙과 외부 시스템 의존이 컸다. SFT는 데이터 품질에 전적으로 좌우되고, RL은 콜드스타트와 보상 설계의 균형 문제(정답만 보상하면 지름길 학습, 병렬을 강제하면 비효율)가 걸림돌이었다.

Parallel-R1의 핵심 아이디어

이 프레임워크는 복잡한 실제 문제를 위한 병렬 사고를 RL로 직접 학습시킨다. 접근의 핵심은 데이터 파이프라인 복잡도를 우회하고 병렬 사고를 두 단계로 형식화하는 것이다: 중요 단계에서 독립 추론 스레드를 펼치는 ‘탐색’과, 각 결과를 모아 결론을 내고 본선을 재개하는 ‘요약’이다. 추론 시 모델은 텍스트를 생성하다가 <Parallel> 태그에서 분기해 여러 <Path> 블록을 생성하고, 완료 후 <Summary>로 합산해 다시 진행한다.

탐색(Exploration)과 요약(Summary) 단계 설계

모델은 임계 지점을 감지하면 병렬 분기를 선언(<Parallel>)하고, 가설별로 독립 경로(<Path>)를 전개한다. 이어 각 경로의 근거와 결과를 대조해 요약(<Summary>)을 생성하고, 주 추론 흐름으로 되돌아가 다음 단계를 이어간다. 이 분기-수렴을 필요 시 여러 번 반복해 추론의 견고성을 높인다.

세 단계 학습 레시피

콜드스타트 단계(형식 학습)

연구팀은 복잡한 파이프라인 대신 강력한 LLM을 프롬프트해 간단한 문제에 대한 병렬 추론 예시를 대량 생성했다. 실험에서는 DeepSeek-R1 디스틸 모델로 GSM8K에서 약 7천개의 병렬 추론 샘플을 만들고, 이를 최종 정답 풀이가 아니라 병렬 사고 ‘형식’ 자체를 가르치는 데 사용해 Parallel-R1의 토대를 마련했다.

쉬운 수학 RL과 보상 교대 전략

이 단계에서는 정답 정확도 보상과 병렬 구조 사용 보상을 교대로 적용해 새로운 행동을 안정화한다. 단일 보상만 쓰면 지름길 학습 혹은 불필요한 병렬화로 치우치기 쉬운 문제를, 교대 전략이 성능과 일관성 사이의 균형으로 완화한다.

일반 수학 RL로 일반화

마지막으로 더 어려운 수학 문제에 대해 RL을 수행해 병렬 사고를 복잡한 시나리오로 확장한다. 이렇게 학습된 모델은 프롬프트 응답 중 여러 번의 분기-요약 사이클을 유연하게 수행할 수 있다.

성능 평가와 결과

오픈소스 Qwen-3-4B-Base를 Parallel-R1으로 학습해 AIME, AMC, MATH 등 표준 벤치마크에서 검증한 결과, 표준 RL 대비 일관된 우위를 보였다. 이는 모델 크기를 키우지 않고도 추론 시간 스케일링으로 사고력을 끌어내는 실용적 경로임을 시사하며, 실제 엔터프라이즈 환경에서 정확도와 효율을 함께 개선할 수 있다.

실무 적용 시 고려사항

주요 섹션 제목 (메인 키워드 변형)

도입 목적과 대상 태스크를 명확히 정의하고, 병렬 분기 수에 따른 지연·비용 상한을 설정한다. 오프라인에서 구조 사용 일관성, 정답 정확도 등 대리 지표를 마련하고, 프롬프트·샘플링 정책을 AB 테스트로 최적화한다. 보안·안전 기준을 로그와 감사 가능한 형태로 접목해 운영 리스크를 줄인다.

홈페이지 제작 전 필수 체크리스트

기업 웹서비스에 LLM 기능을 탑재한다면, 첫째 추론 파이프라인이 <Parallel>/<Path>/<Summary> 제어 흐름을 지원하는지 점검한다. 둘째 병렬 분기 수에 따른 비용·지연 예산을 산정한다. 셋째 보상 교대 전략으로 개발한 정책이 실제 트래픽 분포에 견디는지 샌드박스에서 검증한다. 넷째 개인정보·보안 요구사항과 로깅/모니터링 체계를 준비한다.

홈페이지 제작 프로세스 단계별 안내

1) 문제 정의: 사용자 질의 유형과 성공 기준을 수립한다. 2) 데이터 준비: 간단한 도메인 문제로 콜드스타트 예시를 생성해 병렬 형식을 학습시킨다. 3) 학습: 쉬운 과제 RL로 구조 사용을 안정화하고, 일반 과제로 일반화한다. 4) 배포: 추론 엔진에 분기-요약 로직을 구현해 실서비스에 연결한다. 5) 관측: 정확도·비용·지연 지표를 실시간 모니터링하고, 분기 수/샘플링 파라미터를 튜닝한다. 6) 개선: 실패 케이스를 수집해 데이터·보상 정책을 주기적으로 재학습한다.