leangnews
Command Palette
Search for a command to run...
2025년 11월 13일 11:02
메타의 SPICE: AI가 스스로 추론을 학습하는 자기경쟁 프레임워크
기사 요약
- 메타 FAIR와 싱가포르국립대가 제안한 SPICE 프레임워크는 두 에이전트의 자기경쟁을 통해 인간 감독 없이도 점진적으로 추론 능력을 향상시킨다.
- 문서 코퍼스에 기반한 과제 생성과 정보 비대칭 설계로 환각 누적과 반복 문제를 줄이고, 자동 커리큘럼을 형성해 난이도를 스스로 조절한다.
- Qwen·OctoThinker 등 여러 기반 모델에서 SPICE가 기존 기준선과 순수 자기대전 방법을 일관되게 앞서며 범용 추론 성능 전이를 입증했다.
SPICE로 본 자기개선형 추론의 진화
메타 FAIR와 싱가포르국립대학교 연구진은 자기개선형 AI를 위한 강화학습 프레임워크인 SPICE(Self-Play In Corpus Environments)를 공개했다. SPICE 프레임워크는 두 개의 언어 모델 에이전트를 서로 대립시키는 자기대전(self-play) 구조를 통해 문제를 스스로 만들어 풀고, 인간의 상시 감독 없이도 점진적으로 추론 능력을 끌어올리도록 설계되었다.
자기개선형 AI의 과제
자기개선형 AI의 목표는 환경과의 상호작용을 통해 능력을 스스로 확장하는 것이다. 검증 가능한 보상(Reinforcement Learning with Verifiable Rewards, RLVR)은 정답에 보상을 주는 방식이지만, 사람 손으로 큐레이션한 문제 집합과 도메인 특화 보상 설계에 의존해 확장성이 떨어진다. 기존 언어 모델의 자기대전 방식도 두 가지 병목을 겪는다. 첫째, 생성된 문항과 해답의 사실 오류가 누적돼 환각의 피드백 루프가 생긴다. 둘째, 문제 생성자와 풀이자 사이에 정보 대칭(같은 지식 기반 공유)이 있으면 진짜로 새로운 도전을 만들지 못한 채 반복 패턴에 갇힌다.
SPICE는 어떻게 작동하나
SPICE에서는 하나의 모델이 두 역할을 번갈아 수행한다. "Challenger"는 대규모 문서 코퍼스에서 도전 과제를 구성하고, "Reasoner"는 원문 접근 없이 이를 풀이한다. 문제 생성에 활용한 지식에 풀이자가 접근하지 못하게 함으로써 정보 대칭을 깨고, 과제와 정답을 현실 세계 텍스트에 고정(grounding)해 환각을 줄인다. 연구진은 내재적 성찰만으로는 한계가 있으며, 다양하고 검증 가능한 외부 피드백과의 상호작용이 필수라고 강조한다.
도전자–추론자의 적대적 상호작용
두 역할의 대립 구도는 자동 커리큘럼을 만든다. 도전자는 너무 쉽지도 불가능하지도 않은, 추론자의 한계 근처에 있는 다양한 문제를 만들어 보상을 받고, 추론자는 정답을 맞히면 보상을 받는다. 이 상호작용이 순환하며 양측이 함께 고도화되고, SPICE 프레임워크는 사전 정의된 Q&A가 아닌 원문 문서 자체를 사용해 객관식부터 서술형까지 폭넓은 태스크 형태를 자동으로 생성한다.
자동 커리큘럼과 보상 설계
훈련이 진행될수록 도전자는 난이도를 점진적으로 끌어올리고, 추론자는 적응하며 성능을 높인다. 이렇게 형성된 자동 커리큘럼은 특정 도메인(예: 수학·코드)에 갇히는 병목을 깨고, 법률·의료 등 비용이 큰 인력 큐레이션 의존도를 낮춘다. SPICE 프레임워크의 핵심은 외부 코퍼스에 기반한 검증 가능성으로, 모델이 자신의 출력만 재활용해 오류를 증폭시키는 문제를 제어한다.
다양한 태스크 형식과 도메인 확장
사전 제작된 문제 세트 대신 웹 문서 코퍼스를 사용해 선택형, 단답형, 서술형 등 다양한 문제 형식을 만들 수 있다. 이 유연성 덕분에 뉴스, 백서, 학술 논문, 기술 문서 등 어떤 도메인에도 적용 가능하며, 특수 분야에서도 비싼 라벨링 데이터 의존을 줄일 잠재력이 크다.
실험 설계와 성능 결과
연구진은 Qwen3-4B-Base, OctoThinker-3B-Hybrid-Base 등 여러 기반 모델에 SPICE 프레임워크를 적용해, 무학습(base)·고정 강한 도전자(Qwen3-32B-Instruct)·순수 자기대전(R-Zero, Absolute Zero) 등 기준선과 비교했다. 수학 및 일반 추론 벤치마크 전반에서 SPICE가 일관되게 우수한 향상을 보였고, 코퍼스 기반 자기대전으로 학습된 추론 능력이 다른 모델로도 널리 전이됨을 확인했다.
훈련 도중 자동 커리큘럼의 효과가 수치로도 관찰됐다. 한 고정 문제 세트에서 추론자의 정답률은 시간이 지나며 55%에서 85%로 상승했다. 반대로 후반에 학습된 도전자가 초기 추론자에게 낸 문제에서는 정답률이 55%에서 35%로 하락해, 두 역할이 함께 진화(co-evolve)했음을 보여준다.
의의와 향후 방향
연구진은 이 접근이 환각 표류로 정체되기 쉬운 폐루프 자기대전에서 벗어나, 웹 문서 코퍼스에 담긴 방대한 검증 가능한 지식과의 상호작용을 통해 열린 개선 경로로 전환하는 패러다임 전환이라고 결론지었다. 현재는 텍스트 코퍼스가 중심이지만, 장기적으로는 물리 세계, 인터넷, 사람과의 상호작용, 영상·음성·센서 등 다중 모달 입력을 통해 현실에 뿌리내린 과제를 생성하는 방향을 지향한다.
실제 적용 예시
수학·일반 추론 벤치마크 강화
AMC·GSM8K 등 수학 문제와 다양한 상식/독해 벤치마크에서, 외부 코퍼스 기반 문제 생성으로 난이도와 다양성을 유지해 모델의 체계적 추론 과정을 단련할 수 있다.
법률·의료 문서 분석의 데이터 효율화
도메인 문서 코퍼스를 바탕으로 실제 규정·가이드라인에 근거한 질문을 자동 생성해, 고비용의 전문가 라벨 없이도 모델의 정밀 독해와 근거 제시 능력을 향상시킨다.
기업 지식베이스 질의응답 에이전트 고도화
사내 문서 저장소를 코퍼스로 삼아 정책·제품 문서에서 근거를 추출하고, 정보 비대칭 자기대전으로 반복 학습하며 정확한 답변과 출처 링크를 제공하는 QA 에이전트를 구축할 수 있다.