메타 CWM, 코드의 ‘모양’이 아닌 ‘작동’을 학습하는 새 LLM

작성일시 2025년 10월 02일 00:0361조회수

Table of Contents

기사 요약

메타가 코드 실행 시 동작까지 학습하는 ‘코드 월드 모델(CWM)’을 공개해 코드 이해력을 크게 높였습니다.
CWM은 중간 학습 단계에서 파이썬 실행 추적과 도커 기반 에이전트 상호작용 데이터를 학습해 환경의 동역학을 내재화합니다.
SWE-bench Verified 65.8% 등 다수 벤치마크에서 강세를 보였으며, 비상업적 연구 라이선스로 공개되어 향후 프롬프팅·파인튜닝 탐구가 기대됩니다.

메타의 코드 월드 모델(CWM) 개요

메타 AI 연구팀은 코드가 어떻게 보이는지뿐 아니라 실제 실행될 때 무엇을 하는지까지 학습하는 대규모 언어모델 ‘코드 월드 모델(CWM)’을 공개했다. 이 모델은 코드와 환경의 상호작용을 대규모로 관찰한 데이터로 학습해 계산 시스템의 작동을 내재적으로 추론하는 ‘월드 모델’을 형성한다. 그 결과 표준 코딩·수학 벤치마크에서 강한 성능을 보였고, 엔터프라이즈 환경의 복잡하고 동적인 개발 과제를 처리하는 AI 에이전트 학습의 새로운 방향성을 제시한다. 이는 LLM을 다음 토큰 예측을 넘어 월드 모델 구축으로 확장하려는 흐름의 일환이다.

전통적 코드 생성의 한계

최근 코드 생성이 발전했지만, 고품질·신뢰성 높은 코드를 안정적으로 생성하는 일은 여전히 어렵다. 전형적인 학습 방식이 프로그램의 다음 명령을 예측하는 수준에 머물러 프로그래밍의 복잡성을 충분히 포착하지 못하기 때문이다. 숙련 개발자는 코드 변경이 지역 변수나 애플리케이션 거동에 미칠 영향을 ‘구조와 의미’로 사고한다. 즉, 토큰 나열이 아니라 변수·객체·함수·모듈 등 상호 연관된 구성요소의 체계로 이해하며, 구축/수정 과정에서 애플리케이션의 ‘월드 모델’을 스스로 만든다. 기존 LLM에서는 이런 월드 모델링이 주학습 이후에야 보강되는 경향이 있었고, 메타 팀은 이를 정면으로 바꾼다.

코드 월드 모델의 작동 방식

코드 월드 모델(CWM)은 광범위한 ‘코드 월드 모델링 데이터’로 중간 학습 단계부터 코드의 거동을 가르친다. 계산 환경의 동역학에 일찍 모델을 정합(grounding)하면 이후 학습과 강화학습의 기반이 강해진다는 가설이다. 핵심은 두 종류의 데이터다.

파이썬 실행 추적을 통한 의미론 학습

첫째, 파이썬 코드 실행 추적이다. 각 줄 실행마다 내부 상태(예: 변수)가 어떻게 변하는지 단계별로 기록한 궤적을 학습해, 단순 코드/최종 결과 대비 지시문의 전체적 영향과 프로그램 거동을 깊이 이해한다. 연구진은 문법만이 아니라 ‘의미’를 가르치는 것이 코드 작성뿐 아니라 검증·테스트·디버깅 같은 추론 작업에도 도움을 준다고 보고한다.

도커 환경의 에이전트 상호작용과 ForagerAgent

둘째, 도커 환경에서의 에이전틱 상호작용 데이터다. 연구진은 버그 수정, 기능 구현 등을 수행하는 소프트웨어 엔지니어링 에이전트를 모사하는 합성 데이터 생성기 ‘ForagerAgent’를 만들었다. 학습 초기에 대규모 다단계 상호작용을 관찰함으로써, 동일 환경의 특수 과제에 파인튜닝되기 전부터 환경 동역학을 몸에 익힌다.

실제 적용 예시

경쟁 프로그래밍에서의 자기 검증 루프

코드 월드 모델은 문제 해결 초안을 만든 뒤, 스스로 입출력 테스트를 설계해 정답성을 점검하고, 예측 출력과 실제 실행 결과를 비교해 수정한다. 이 자기 검증 루프는 월드 모델 기반 학습의 직접적 결실이다.

기업 환경에서의 에이전틱 코딩 워크플로우

복잡한 의존성과 반복적 실험이 필요한 엔터프라이즈 개발에서 코드 월드 모델은 환경 시뮬레이션과 단계별 실행 추론을 통해 버그 재현, 회귀 방지, 기능 추가의 영향 범위를 체계적으로 평가하도록 돕는다.

성능 지표와 모델 스펙

메타는 최대 131,000 토큰 컨텍스트 윈도우를 갖춘 320억 파라미터 모델을 학습했다. SWE-bench Verified에서 65.8% 합격률로 유사 크기 오픈웨이트 모델을 앞섰고, LiveCodeBench(경쟁 프로그래밍), Math-500·AIME 2024(수리 추론), CruxEval(파이썬 출력 예측)에서도 높은 점수를 기록했다. 연구진은 월드 모델이 에이전틱 코딩을 이롭게 하고, 파이썬 코드 실행의 단계별 시뮬레이션을 가능케 하며, 그로부터 추론 성능이 개선되는 초기 징후를 확인했다고 밝혔다.

라이선스와 현재 한계

CWM은 비상업적 라이선스의 연구용 모델로 공개되며, 범용 어시스턴트/챗봇 용도는 아니다. 일부 지시 따르기 데이터는 학습했지만 대화용 최적화는 충분하지 않다. 메타는 이번 발표를 “첫걸음”으로 보며, 프롬프팅이나 파인튜닝을 통해 월드 모델 지식을 과업 전반의 성능 향상에 견고하게 활용하는 방법이 유망한 연구 주제라고 강조한다.

왜 월드 모델이 지능의 핵심인가

LLM에 단순 다음 토큰 예측 이상의 능력을 부여하려는 관심이 커지고 있다. 체인 오브 소트(CoT)는 모델이 답을 내기 전 사고 과정을 서술하도록 유도하지만, 여전히 토큰 생성일 뿐이며 실제 추론의 근거로 삼기 어렵다는 연구도 나온다. 반면 월드 모델은 출력 토큰에 직접 드러나지 않을 수 있는 잠재 공간의 세계 표상을 기르는 접근이다. 최근에는 LLM과 월드 모델 특화 아키텍처인 JEPA를 결합한 LLM-JEPA가 환경 변화에 더 강인하고, 순수 다음 토큰 예측 대비 새로운 과업을 더 효율적으로 학습한다는 초기 결과가 보고됐다. 다양한 AI 아키텍처의 접합은 아직 과제지만, 견고한 월드 모델을 가진 시스템이 현실 세계의 끊임없이 변하는 환경에서 더 신뢰성 있게 작동한다는 점은 점점 분명해지고 있다.