leangnews

Command Palette
Search for a command to run...

2026년 01월 17일 10:01

구글 ‘내부 강화학습’으로 장기 추론 에이전트의 길을 연다

기사 요약

구글 연구진은 LLM의 다음 토큰 예측을 넘어 모델 내부 활성값을 조정해 고수준 단계별 해법을 유도하는 ‘내부 강화학습’을 제안했다.

내부 강화학습(internal RL)이 여는 장기 추론의 돌파구

구글 연구진은 대형 언어모델이 환각을 일으키거나 추론이 붕괴되기 쉬운 복잡 과제를 더 쉽게 익히도록, 출력 토큰이 아니라 모델의 내부 활성을 직접 유도하는 ‘내부 강화학습(internal RL)’을 제시했다. 이 방법은 입력 문제에 대한 고수준 단계별 해법을 모델 내부에서 먼저 정립하게 한 뒤, 이미 사전학습으로 익힌 패턴을 따라 세부 토큰 생성을 안정적으로 수행하도록 돕는다. 궁극적으로는 지속적인 수동 가이드 없이도 복잡 추론과 실제 로보틱스까지 다루는 자율 에이전트로 나아갈 수 있는 확장 가능한 경로를 제시한다.

다음 토큰 예측의 한계와 계층적 접근

LLM은 자기회귀 구조라 훈련 중 새로운 전략 탐색이 다음 한 토큰 변화에 국한되기 쉽다. 이처럼 토큰 단위 탐색은 기본 언어 모델링에는 유용하지만, 보상이 희소한 장기 과제에서는 정답 경로를 우연히 찾을 확률이 극도로 낮다. 연구진은 문제를 잘못된 추상화 수준에서 탐색하기 때문에, 20단계 작업에서 한 단계의 사소한 세부에 매몰되거나 전체 목표를 놓치기 쉽다고 지적한다. 이를 해결하려고 분야는 오랫동안 계층적 강화학습(HRL)에 기대왔지만, 의미 있는 고수준 서브루틴 발견이 어려워 퇴화된 옵션으로 수렴하는 문제가 잦고, GRPO 같은 현대 기법도 저수준 실행과 고수준 계획 간의 간극을 메우지 못했다.

모델의 ‘내부 생각’을 조종하기: 메타컨트롤러

내부 강화학습의 핵심은 잔차 스트림(residual stream) 등 중간 층의 활성값을 조정하는 ‘메타컨트롤러’다. 출력 토큰을 감시·수정하는 대신, 메타컨트롤러가 내부 상태를 살짝 밀어 유용한 고수준 목표 상태로 유도하면, 기반 모델이 사전학습에서 본 패턴을 따라 필요한 세부 단계들을 자동 전개한다. 메타컨트롤러는 비지도로 작동하고, 자기지도 프레임워크로 행동 전체 시퀀스를 분석해 그 행동을 가장 잘 설명하는 숨은 고수준 의도를 역추론한다. 내부 강화학습 단계에서는 업데이트가 메타컨트롤러에 집중돼, ‘다음 토큰 예측’에서 ‘해결로 이어지는 고수준 행동 학습’으로 초점이 이동한다.

코드 생성에서의 온도 딜레마 완화

기업용 코드 생성 에이전트는 문법 안정성에는 낮은 온도, 논리 창의성에는 높은 온도가 필요해 난제가 있었다. 내부 강화학습(internal RL)은 로직 구조화·메서드 호출 배치 같은 추상적 행동 공간을 탐색하게 하면서, 그 행동의 토큰 수준 실현은 기반 모델의 낮은 온도 분포에 맡겨 문법을 무너뜨리지 않고 해법 탐색을 가능케 한다.

내부 강화학습의 실험 결과

연구진은 이산 격자 세계와 사족보행 ‘개미(ant)’ 로봇 제어 등 계층 구조가 뚜렷하고 보상이 희소한 환경에서 평가했다. 장기 크레딧 할당의 난점으로 GRPO나 CompILE 같은 기준선은 백만 에피소드 내 학습에 실패했지만, 내부 강화학습은 고수준 목표 선택으로 탐색 공간을 급감시켜 적은 에피소드로 높은 성공률을 보였다. 특히 기반 모델을 먼저 사전학습해 ‘동결’하고, 메타컨트롤러만 학습하는 방식이 우월했다. 반면 둘을 처음부터 함께 학습하면 의미 있는 추상화가 형성되지 않았고, 동결 방식에서는 인간 라벨 없이도 하위 목표 전환 시점을 정확히 포착했다.

시사점: 외부 ‘사고의 사슬’보다 내부 추론으로

장황한 체인오브소트(chain-of-thought) 출력을 중시하는 분위기와 달리, 이번 결과는 내부 추론이 토큰 기반 접근보다 더 효율적일 수 있음을 시사한다. 또한 이러한 ‘침묵의 생각’은 입력 양식에 덜 종속적이어서 향후 멀티모달 AI에 특히 유리하다. 내부 강화학습을 통해 외화(出力) 없이도 내부 표현을 접근·조종할 수 있다면, 장기적으로는 프롬프트 전략보다 모델 내부 표현을 얼마나 잘 읽고 이끌 수 있는지가 자율 에이전트 성능을 좌우하게 될 것이다.

실제 적용 예시

코드 생성 에이전트 적용 체크리스트

1) 기반 LLM을 충분한 행동/코드 로그로 사전학습 후 동결한다. 2) 내부 강화학습 메타컨트롤러를 도입해 추상적 계획(모듈 구조, API 호출 순서)을 탐색하게 한다. 3) 토큰 생성은 낮은 온도로 유지해 문법 안정성을 담보한다. 4) 희소 보상 설계를 통해 최종 실행 성공·테스트 통과에 보상을 집중한다.

장기 계획 로보틱스 학습 단계별 안내

1) 시뮬레이터에서 다양한 하위 목표가 포함된 행동 시퀀스를 수집한다. 2) 내부 강화학습 메타컨트롤러를 잔차 스트림에 삽입해 고수준 전환 시점을 자기지도 방식으로 학습한다. 3) 실제 로봇으로 이전 시, 안전 제약을 보상에 반영하고, 메타컨트롤러의 목표 선택 빈도를 조정해 안정성과 민첩성 균형을 맞춘다.

최신기사

Ease Health, a16z서 4,100만 달러 유치…AI 네이티브 행동건강 운영체제 재정의

거래소 애그리게이터는 어떻게 암호화폐 인프라가 되었나: 사례와 시사점

알리바바 Qwen3.5-9B, OpenAI 120B 능가…오픈소스로 노트북에서도 구동

인튜잇, 40년 소상공인 데이터로 SaaSpocalypse 정면돌파

딥페이크보다 위험한 건 ‘속삭임’? 웨어러블 AI의 일상적 조작

AI의 '정렬 위장' 확산: 자율 에이전트 시대 보안 과제

과열된 AI와의 바이브 코딩: 구글 AI 스튜디오를 팀처럼 다루며 얻은 교훈

앤스로픽과 펜타곤 충돌: 기업에 필요한 상호운용성 전략

마이크로소프트 OPCD: 장문 시스템 프롬프트 제거해도 모델 성능 유지

기업의 MCP 도입 속도, 보안 통제보다 훨씬 빠르다