단 78개 예제로 자율 AI 에이전트 학습하는 LIMI 프레임워크

단 78개 예제로 자율 AI 에이전트 학습하는 LIMI 프레임워크

단 78개 예제로 자율 AI 에이전트 학습하는 LIMI 프레임워크


기사 요약

  • 상하이 교통대·GAIR 연구진이 제안한 LIMI는 대규모 데이터 없이도 복잡한 자율 과제를 수행할 LLM을 학습할 수 있음을 입증했다.
  • 정교하게 선별한 단 78개 시연 데이터로 GLM-4.5를 미세조정해 AgencyBench 73.5%를 기록, 수천 건 학습 모델을 크게 앞섰다.
  • 코드·가중치 공개로 기업은 소수의 고품질 내부 데이터만으로 맞춤 에이전트 구축이 가능해져 비용과 시간 부담을 줄일 수 있다.

LIMI: 적은 데이터로 자율 에이전트 역량을 끌어올리다

상하이 교통대와 SII 생성형 AI 연구소(GAIR)의 새 연구는 복잡한 자율 업무를 수행하는 LLM 학습에 방대한 데이터가 필수는 아님을 보여준다. 연구진이 제안한 LIMI(Less Is More for Intelligent Agency)는 “양보다 질”에 초점을 맞춘 전략적 큐레이션으로 에이전트 지능을 강화한다.

왜 적은 데이터로 가능한가

연구진은 에이전시를 “환경과 도구와의 자기주도적 상호작용을 통해 문제를 찾아 가설을 세우고 해결을 실행하는 자율적 능력”으로 정의한다. 기존 확장 법칙은 더 많은 데이터를 전제하지만, LIMA(2023)와 LIMO 같은 선행 연구는 정선된 소량 데이터만으로도 정렬과 고난도 추론이 가능함을 시사했다. LIMI는 이 ‘적을수록 더 낫다’ 원칙을 에이전트 학습으로 확장한다.

LIMI가 작동하는 방식

고품질 에이전트 데모 수집 파이프라인

LIMI의 핵심은 고품질 시연(demonstration) 수집이다. 각 시연은 사용자의 자연어 요청(쿼리)과 그에 대한 에이전트의 해결 경로(트래젝토리)로 구성된다. 트래젝토리는 내부 추론, 코드 인터프리터 같은 외부 도구 호출, 환경 관찰, 그리고 목표 달성까지의 계획-실행-성찰의 반복 과정을 담는다. 예를 들어 “간단한 채팅 앱을 만들어라”라는 쿼리에 대해, 에이전트의 사고 과정과 실행 계획, 작성·실행한 코드, 출력·에러와 수정 과정이 모두 기록된다.

데이터셋 구성과 검증

연구팀은 먼저 실무 개발·연구 현장의 60개 쿼리로 출발하고, 여기에 GPT-5를 활용해 GitHub PR에서 추가 쿼리를 합성했다. 이후 컴퓨터공학 박사과정 4명이 품질을 심사해 총 78개 고품질 쿼리를 선별했다. 같은 팀이 GPT-5 기반 CLI 코딩 에이전트와 협업해 각 과제를 완수할 때까지 전체 상호작용을 수집했으며, 복잡한 과제의 경우 트래젝토리가 152,000토큰을 넘기기도 했다. 이 과정 덕분에 LIMI는 성공 결과뿐 아니라 실패에서의 회복과 전략 수정까지 학습한다.

LIMI 성능 평가 결과

AgencyBench와 도구·코딩 벤치마크

연구진은 GLM-4.5를 LIMI의 78개 샘플로 미세조정해 평가했다. 그 결과 LIMI 모델은 AgencyBench 평균 73.5%로, 베이스 GLM-4.5(45.1%)는 물론 Kimi-K2-Instruct, DeepSeek-V3.1 등 프런티어 모델들을 크게 앞섰다. 도구 사용, 코딩, 과학 계산 등 다른 벤치마크에서도 우월성을 확인했다.

적은 데이터의 효율성

LIMI로 학습한 모델은 다른 데이터셋에서 10,000개 예시로 학습한 모델을 능가했으며, 데이터 사용량은 128배 적었다. 이는 에이전시를 잘 익히는 길이 데이터 스케일링이 아니라 본질을 포착한 고품질 시연에 있음을 시사한다. LIMI의 코드는 데이터 합성·훈련 파이프라인과 함께 모델 가중치도 공개됐다.

엔터프라이즈 적용 시사점

소수의 정선 데이터로 맞춤 에이전트 구축

기업은 대규모 수집 프로젝트 대신, 내부 전문가가 만든 소량의 고품질 시연을 활용해 업무 특화 에이전트를 빠르게 개발할 수 있다. 이는 진입 장벽과 비용을 낮추고, 핵심 워크플로에서 경쟁우위를 제공한다. LIMI는 ‘생각하는 AI’에서 ‘일하는 AI’로의 전환을 지속 가능하게 뒷받침하는 실용적 경로를 제시한다.