데이터 라벨링 없이 진화하는 LLM, 텐센트 R-Zero의 자기훈련 프레임워크
기사 요약 텐센트 AI 랩과 워싱턴대 세인트루이스 연구진의 R-Zero는 인간 라벨 없이 강화학습으로 자체 훈련 데이터를 생성해 LLM의 추론 능력을 끌어올린다. 챌린저–솔버가 공진화하며 커리큘럼을 만들고, 다수결 자기라벨로 반복 미세조정해 수학·일반 추론 벤치마크 성능을 크게 개선했다. 난이도 상승에 따른 자기라벨 정확도 저하와 도메인 제약이 남지만, 기업에는 희소 데이터 영역에서 비용·속도를 개선하는 유망한 사전학습 경로가 된다. 개요: … Read more