데이터 라벨링 없이 진화하는 LLM, 텐센트 R-Zero의 자기훈련 프레임워크

데이터 라벨링 없이 진화하는 LLM, 텐센트 R-Zero의 자기훈련 프레임워크

데이터 라벨링 없이 진화하는 LLM, 텐센트 R-Zero의 자기훈련 프레임워크


기사 요약

  • 텐센트 AI 랩과 워싱턴대 세인트루이스 연구진의 R-Zero는 인간 라벨 없이 강화학습으로 자체 훈련 데이터를 생성해 LLM의 추론 능력을 끌어올린다.
  • 챌린저–솔버가 공진화하며 커리큘럼을 만들고, 다수결 자기라벨로 반복 미세조정해 수학·일반 추론 벤치마크 성능을 크게 개선했다.
  • 난이도 상승에 따른 자기라벨 정확도 저하와 도메인 제약이 남지만, 기업에는 희소 데이터 영역에서 비용·속도를 개선하는 유망한 사전학습 경로가 된다.

개요: 자체 진화 LLM을 향한 R-Zero의 제안

텐센트 AI Lab과 워싱턴대학교 세인트루이스 연구진은 인간이 라벨링한 데이터 없이도 대규모 언어모델이 스스로 학습을 이어갈 수 있는 R-Zero 프레임워크를 공개했다. 강화학습을 활용해 처음부터 훈련 데이터를 자체 생성하고, 두 개의 독립 모델이 상호작용하며 서로를 고도화한다. 실험 결과는 다양한 오픈소스 LLM에서 추론 성능이 크게 향상되어, 고도 AI 학습의 복잡성과 비용을 낮출 잠재력을 보였다.

자가진화 LLM의 핵심 도전과 병목

자가진화 LLM의 목표는 과제를 스스로 만들고, 답변을 개선하며, 경험에서 학습하는 것이다. 그러나 이를 위해서는 대량의 고품질 과제와 라벨이 필요하고, 사람에 의존한 데이터 제작은 느리고 비싸며 근본적 병목이 된다. 라벨 없이 모델의 출력 신뢰도 등에서 보상 신호를 추출하는 기법이 제안되었지만, 여전히 사전에 주어진 과제 집합에 의존해 완전한 자가진화 시나리오에는 한계가 있었다. 특히 정답 검증이 어려운 개방형 추론 영역에서는 모델이 스스로 만든 데이터의 품질 보장이 난제였다.

R-Zero의 작동 방식: 챌린저–솔버 공진화

R-Zero는 하나의 베이스 모델을 두 역할로 분리해 학습을 시작한다. 챌린저는 솔버의 현재 능력 경계에 걸친, 너무 쉽지도 불가능하지도 않은 새 과제를 생성하고, 솔버는 점점 어려워지는 과제를 해결해 보상을 얻는다. 연구진은 “정답을 내는 것보다 고품질·신규·점진 난이도의 질문을 만드는 일이 더 어렵다”고 강조하며, 공진화가 ‘좋은 교사’를 자동으로 만들어 지속적이고 역동적인 커리큘럼을 형성한다고 설명한다.

챌린저가 충분한 질문을 만들면 다양성 기준으로 필터링해 훈련 세트를 구성한다. 솔버는 이 어려운 질문들로 파인튜닝되며, 각 문항의 ‘정답’은 솔버의 다중 시도에서 다수결로 결정한다. 이 루프는 인간 개입 없이 반복되어 두 모델이 매 반복마다 함께 성장한다.

성능 검증: 수학에서 일반 추론으로의 전이

연구진은 Qwen3, OctoThinker 등 오픈소스 LLM을 대상으로 R-Zero를 평가했다. 수학 문제로 먼저 학습한 뒤, MMLU-Pro와 SuperGPQA 같은 일반 도메인 추론 벤치마크로 전이 성능을 확인했다. Qwen3-4B-Base는 수학 추론 벤치마크에서 평균 +6.49점, Qwen3-8B-Base는 3회 반복 후 +5.51점 상승했다. 첫 반복(iteration) 직후 성능 도약이 관측되어, 강화학습으로 훈련된 챌린저의 커리큘럼 효과가 검증되었다.

흥미롭게도 수학에서 학습한 기술이 일반 추론으로 효과적으로 이전되어 Qwen3-4B-Base는 범용 추론 벤치마크에서 +7.54점 개선을 보였다. 또한 R-Zero로 먼저 향상된 모델은 이후 전통적 라벨 데이터로 파인튜닝할 때 더 높은 성능을 기록해, 성능 증폭형 사전학습 단계로서의 가치를 시사했다.

한계와 향후 과제: 자기라벨의 신뢰도 저하

공진화가 진행되며 문제가 어려워질수록, 솔버의 다수결로 정답을 안정적으로 산출하는 능력은 감소했다. 강력한 오라클 LLM(GPT-4 등)과 비교했을 때, 자기 생성 라벨의 실제 정확도는 1회차 79%에서 3회차 63%로 하락했다. 이는 장기 성능의 병목이 될 수 있는 중요한 트레이드오프다. 현재 메커니즘은 정답이 객관적으로 판정 가능한 수학 등 분야에 가장 적합하며, 마케팅 카피 생성처럼 주관적 평가가 필요한 업무로 확장하려면 ‘검증자/비평가(Verifier/Critic)’ 에이전트를 추가해 품질 신호를 학습하는 3자 공진화가 유력한 방향으로 제시된다.

엔터프라이즈 시사점: 데이터 큐레이션을 건너뛰는 길

희소하거나 존재하지 않는 고품질 라벨 데이터가 장애물인 특수 도메인에서, R-Zero는 데이터 수집·라벨링·큐레이션 비용과 시간을 크게 줄이며 복잡 추론 모델 개발을 가속화할 수 있다. 다만 자기라벨 품질 모니터링, 난이도 스케줄링, 도메인 적합성 검증, 오라클 평가와의 주기적 교차 검증 같은 운영 가드레일을 함께 설계해야 안정적인 장기 개선이 가능하다.

실제 적용 예시

R-Zero 도입 전 필수 체크리스트

1) 목표 작업의 정답 판정 가능성(객관식/수학/코드 등) 2) 베이스 모델 용량·추론 비용·반복 학습 예산 3) RL로 학습될 챌린저의 보상 설계와 난이도 제어 4) 자기라벨 정확도 추적을 위한 오라클 평가 셋 5) 데이터 다양성 필터와 커리큘럼 커버리지 기준 6) 보안·컴플라이언스 요건과 로그 감사 체계.

R-Zero 도입 프로세스 단계별 안내

1) 베이스 LLM 선택 및 초기화 2) 챌린저 RL 보상 정의와 학습 3) 챌린저가 생성한 과제의 다양성/품질 필터링 4) 솔버 다중 시도→다수결 라벨 생성 5) 솔버 파인튜닝 및 성능 평가 6) 반복(iteration) 스케줄 운영과 난이도 조정 7) 필요 시 오라클 라벨과 혼합해 하이브리드 훈련 8) 주관적 과제 확장을 위한 검증자 에이전트 추가 9) 운영 단계에서 모니터링·롤백·A/B 테스트 정착.

R-Zero는 아직 연구 단계의 증명 개념이지만, 올바른 가드레일과 함께 적용하면 자가진화 LLM 구축의 실용적 토대를 제공할 수 있다.