leangnews
Command Palette
Search for a command to run...
2025년 10월 16일 23:00
EAGLET, 맞춤형 글로벌 플랜으로 장기 과제 AI 에이전트 성능 향상
기사 요약
- 칭화대·북경대 등 연구진이 제안한 EAGLET은 실행자와 분리된 글로벌 플래너로 장기 과제의 계획 오류와 환각을 줄인다.
- 합성 계획+동질 합의 필터링과 규칙 기반 강화학습, ECGR 보상으로 사람 라벨 없이 학습해 다양한 모델과 프롬프트에서 성능을 끌어올렸다.
- 벤치마크와 효율성 이점은 확인됐지만, 코드 미공개와 엔터프라이즈 통합·최소 모델 규모·실시간/오프라인 운용 전략 등은 여전히 미정이다.
개요
2025년은 엔비디아 젠슨 황 CEO 등 업계가 'AI 에이전트의 해'로 지목했지만, 다단계에 걸친 장기 과제에서의 신뢰성과 효율성은 여전히 난제다. 외부 벤치마크는 과업 단계가 길어질수록 실패율이 높아지고, 수행 시간이 길어질수록 성능이 흔들린다는 점을 보여준다.
이에 칭화대·북경대·DeepLang AI·UIUC 연구진은 EAGLET이라는 학술적 프레임워크를 발표해, 별도의 수작업 라벨링이나 재학습 없이 LLM 에이전트의 장기 과제 성능을 끌어올리는 실용적 방법을 제시했다.
EAGLET 글로벌 플래너 개요
문제 정의: 계획과 실행의 혼재
다수의 LLM 에이전트는 반응적·단계별 추론에 의존해 시행착오, 계획 환각, 비효율적 경로를 낳기 쉽다. 본 프레임워크는 실행자와 나란히 동작하는 글로벌 플래닝 모듈을 도입해, 단일 모델에 계획과 행동 생성을 뒤섞지 않고 분리함으로써 과업 수준의 일관된 전략을 가능하게 한다.
역할과 경계
플래너는 사용자나 환경이 제공하는 지침을 해석해 고수준 계획을 산출하고, 이후 실행 단계에는 개입하지 않는다. 초기 가이던스로 계획 오류를 줄이고 완수율과 효율을 높이는 것이 핵심이다.
EAGLET 기반 글로벌 플래너의 역할
플러그앤플레이식 모듈로 기존 파이프라인에 삽입할 수 있으며, 실행자 재학습 없이 환각을 줄이고 단계 수를 단축하는 데 초점을 맞춘다.
학습 파이프라인과 보상 설계
사람 라벨 없는 2단계 학습
1단계에서 GPT-5, DeepSeek‑V3.1‑Think 같은 고성능 LLM으로 합성 계획을 생성한다. 이어 '동질 합의 필터링(homologous consensus filtering)'으로 숙련·비숙련 실행자 모두의 성능을 높이는 계획만 남긴다. 2단계에서는 규칙 기반 강화학습으로 플래너를 추가 정련하며, 다중 실행자 성공에 기여한 정도를 맞춤 보상으로 측정한다.
ECGR: 실행자 역량 향상 보상
실행자 능고·저 모두에게 성공률을 높이고 단계 수를 줄이는 계획에 보상을 부여하고, 더 짧고 효율적인 경로를 선호하도록 감쇠 항을 포함한다. 이로써 이미 유능한 실행자에게만 유효한 계획의 과대평가를 방지하고 일반화 가능한 지침을 장려한다.
EAGLET 훈련 파이프라인 요약
합성 계획 생성 → 동질 합의 필터링 → 규칙 기반 RL 정련 → 멀티 실행자 성과 기준의 보상 최적화로 이어지는 흐름이다.
호환성 및 벤치마크 성과
모듈성 덕분에 다양한 기반 모델(GPT‑4.1, GPT‑5, Llama‑3.1, Qwen2.5)과 프롬프트 전략(ReAct, Reflexion 등)에서 효과가 확인됐다. Llama‑3.1‑8B‑Instruct 기준 평균 점수는 39.5에서 59.4로(+19.9) 상승했고, ScienceWorld 미보던 시나리오에서는 42.2→61.6, ALFWorld 기보던 시나리오에서는 22.9→54.3으로 2.3배 이상 개선됐다.
더 강한 모델에서도 이득이 지속됐다. 예를 들어 GPT‑4.1은 75.5→82.2, GPT‑5는 84.5→88.1로 올랐다. 일부 실험에서는 ALFWorld 미보던 과제에서 ETO 실행자와 결합 시 최대 +11.8p의 향상이 관찰됐다. 또한 ALFWorld 미보던 과제에서 GPT‑4.1 기준으로 베이스라인 MPO 79.1 대비 플래너 적용 시 83.6으로 +4.5p 우세를 보였다. 평균 단계 수도 GPT‑4.1에서 13.0(무플래너)→11.1, GPT‑5에서 11.4→9.4로 줄어 실행 효율이 향상됐다.
훈련·추론 효율
GiGPO 같은 RL 방식이 수백 회 반복을 요구하는 데 비해, 본 프레임워크는 약 1/8 수준의 학습 노력으로 동등하거나 더 나은 결과를 냈다. 실행 단계에서도 필요한 스텝이 감소해 추론 지연과 비용 절감에 기여한다.
제약과 엔터프라이즈 도입 과제
현재(arXiv 제출 시점) 오픈소스 코드는 공개되지 않았다. 공개 시기·라이선스·유지보수 전략이 불명확해 단기적 엔터프라이즈 활용성에 제약이 될 수 있다. 또한 LangChain·AutoGen 등 인기 프레임워크와의 손쉬운 통합 가능성, 계획‑실행 분리를 위한 별도 스택 필요 여부도 미지수다.
학습 설정은 다수의 실행자를 활용하는데, 제한된 모델 접근 환경에서 재현이 쉽지 않을 수 있다. 최소 실용 모델 규모(예: 100억 매개변수 미만의 오픈 모델로 지연 민감 환경에서 사용할 수 있는지), 산업별(고객지원·IT 자동화 등) 맞춤화 난이도, 실시간 루프 내 운용과 사전 계획 생성(오프라인) 중 어떤 전략이 적합한지 등도 추가 검증이 필요한 쟁점이다.
실제 적용 예시
엔터프라이즈 도입 전 체크리스트
계획‑실행 분리를 지원하는 기존 에이전트 스택 보유 여부, 단일 실행자 환경에서 동질 합의 필터링을 대체할 평가 절차 설계, 지연·비용 예산과 단계 수 감소 목표 설정, 보안·컴플라이언스 요건 하의 프롬프트·로그 관리 방안, 파일럿 벤치마크와 A/B 테스트 계획을 사전에 점검한다.
플래너‑실행자 통합 프로세스 단계별 안내
1) 대표 과업 유형 정의 및 템플릿화 2) 오프라인 합성 계획 생성·버전관리 3) 실시간 vs 사전 계획 적용 전략 확정 4) 완료율·평균 단계 수·추론 비용 등 핵심 지표 계측 5) 베이스라인(MPO 등) 대비 점진적 롤아웃과 회귀 모니터링을 수행한다.
정리
EAGLET는 글로벌 플래너를 통해 장기 과제에서의 계획 품질과 효율을 동시에 개선할 수 있음을 입증했다. 다만 코드 공개와 통합 가이드가 부재한 현시점에서는, 내부 재현 비용과 기대 성과 사이의 전략적 트레이드오프를 면밀히 따져 '지금 구축할지, 공개를 기다릴지'를 판단해야 한다.