2026년 01월 21일 10:01

MIT 재귀 언어 모델, 문맥 부패 없이 1천만 토큰 추론 지원

기사 요약

MIT CSAIL이 제안한 재귀 언어 모델(RLM)은 긴 프롬프트를 외부 환경으로 취급해 코드로 부분 열람·분해·재귀 호출하며 추론한다.
루트 LM과 워커 LM의 이중 에이전트 구조로 필요한 텍스트 조각만 불러와 처리하고, 기존 LLM API를 대체하는 드롭인 방식으로 적용 가능하다.
BrowseComp-Plus·OOLONG-Pairs·CodeQA 등에서 대폭 성능 향상과 비용 효율을 보였으나, 롱테일 비용과 루프 방지를 위한 가드레일이 필요하다.

개요

MIT CSAIL 연구진은 긴 프롬프트를 모델의 컨텍스트 창에 억지로 넣지 않고, 외부 환경처럼 다루며 코드로 필요한 부분만 읽어들이는 재귀 언어 모델(RLM) 프레임워크를 공개했다. 이 접근은 컨텍스트 윈도 확장이나 요약에 의존하지 않고도 수백만~수천만 토큰 규모의 정보를 재훈련 없이 추론하게 해, 코드베이스 분석·법률 검토·멀티스텝 추론 같은 장기 과제에 실용적 대안을 제시한다.

왜 재귀 언어 모델(RLM)인가

최신 LLM은 추론력은 발전했지만, 한 번에 처리 가능한 텍스트 길이(컨텍스트 길이)와 ‘문맥 부패(context rot)’라는 이중 한계로 대용량 정보 처리 능력은 더디게 늘고 있다. 연구진은 범용 LLM의 유효 컨텍스트를 재훈련 없이 수십 배 이상 확장할 수 있느냐를 핵심 도전으로 제시한다. 요약으로 공간을 비우는 압축 방식은 과거 정보에 임의 접근이 필요한 작업에서 곧잘 실패한다는 지적이다.

RLM의 작동 원리

아이디어의 뿌리는 고전 컴퓨팅의 ‘아웃오브코어’ 알고리즘이다. 전체 데이터를 메모리에 올리지 않고 저장장치에 두고, 필요한 덩어리만 읽어 처리하듯, RLM은 긴 프롬프트를 신경망에 직접 투입하지 않는다. 대신 파이썬 실행 환경에 문자열 변수로 로드하고, 모델은 총 글자 수 같은 대략의 메타정보만 받은 뒤 처음에는 본문을 ‘보지 않는다’. 이후 모델은 프로그래머처럼 행동해 정규표현식 등 표준 명령으로 외부 변수를 탐색하고, 관련 스니펫이 발견되면 그 조각만 활성 컨텍스트 창으로 불러와 분석한다. 이를 통해 재귀형 언어 모델은 방대한 텍스트를 장(chapter) 경계 식별→부분 요약 같은 루프와 서브콜로 체계적으로 분해·처리한다.

RLM 아키텍처와 구성

아키텍처는 보통 두 에이전트로 이뤄진다. 역량이 큰 루트 LM은 오케스트레이터로서 계획을 세우고 코드를 작성해 REPL 환경에서 데이터 흐름을 관리한다. 더 빠르고 저렴한 워커 LM은 코드가 분리한 텍스트 조각을 실제로 처리한다. 프롬프트는 모델 컨텍스트가 아니라 환경 메모리에 상주하므로, 학습 한계를 넘어서는 입력도 다룰 수 있다. 사용자 관점에서는 문자열 입력과 답변 출력이라는 인터페이스가 동일해 기존 LLM 호출을 RLM으로 손쉽게 대체할 수 있으며, 구현 코드는 GitHub에서 이용 가능하다.

벤치마크 성능과 확장성

연구진은 검색·멀티홉 QA 등 장문 과제에서 RLM을 기본 모델과 요약 에이전트, CodeAct 등과 비교했다. 600만~1,100만 토큰 입력의 BrowseComp-Plus에서 기본 모델은 0%로 실패했지만, GPT-5 기반 RLM은 91.33%로 요약 에이전트(70.47%)와 CodeAct(51%)를 크게 앞섰다. 입력 길이에 따라 난도가 제곱으로 증가하는 OOLONG-Pairs에서는 기본 GPT-5가 0.04%로 붕괴한 반면 RLM은 F1 58%를 기록했다. 코드 이해 과제(CodeQA)에서도 기본 24% 대비 62%로 두 배 이상 향상했다. 특히 문맥 창 한계를 넘어서도 성능을 유지하며, ‘문맥 부패’가 심화될수록 기본 모델 대비 우위를 지속했다.

비용, 리스크, 거버넌스

워크플로가 복잡해졌음에도 평균 비용은 기준선과 비슷하거나 더 낮았고, BrowseComp-Plus에서는 요약 기반 대비 최대 3배 저렴했다. 다만 실행 궤적이 롱테일 분포를 보여, 루프에 갇히거나 과도한 재검증이 발생하면 비용 급증 위험이 있다. GPT-5는 서브콜에 비교적 보수적이었으나, 오픈소스 Qwen3-Coder는 단순 작업에도 수천 번 서브콜을 시도하는 사례가 관찰됐다. 현재는 재귀 언어 모델의 행동을 통제할 가드레일과 예산 관리 로직이 필요하며, 향후에는 모델이 자체 연산 예산을 더 똑똑하게 관리하도록 학습하는 방향이 제시된다. Prime Intellect 등은 RLM을 학습 과정에 통합해 예외적 예산 급증을 완화하는 방안을 모색 중이다.

기업 적용 시사점

재귀 언어 모델은 긴 대화 이력의 챗봇에도 유용하지만, 궁극적으로는 LLM 활용 방식을 전환한다는 주장을 뒷받침한다. RAG 같은 표준 검색-증강 기법을 대체하기보다 상호 보완적으로 결합해, 코드베이스 분석·컴플라이언스/법률 검토·장문 문서 이해 등 정보 밀도가 높은 업무에서 실무적 가치를 제공할 수 있다.

최신기사

SAP Cloud ERP로 AI 자동화를 이룬 웨스턴 슈거의 전환

네틀리 헬스, 무료 AI 건강 동반자 앱 출시…환자 경험 혁신

체크박스, 2,300만 달러 시리즈 A…사내 법무 ‘AI 리걸 프런트 도어’ 확장

Adaptive6, 실시간 클라우드 비용 최적화로 기업 낭비 절감

아웃테이크, ICONIQ 주도로 4천만 달러 시리즈 B 유치…AI 시대 디지털 신뢰 플랫폼 확장 가속

Factify, PDF와 .docx 넘어 지능형 문서 표준을 노린다

Airtable Superagent, 전체 실행 가시성으로 멀티에이전트 한계 돌파

ElephantSqlDB, 프리 IPO 개시…POC 1.43억달러·기업가치 4,600만달러

Memcyco, 디지털 사칭·계정 탈취 차단 위해 3,700만 달러 시리즈 A 유치

Theorem, AI가 쓴 코드 검증해 버그 막는다… 600만 달러 유치