파인튜닝 없이 경험에서 학습하는 LLM 에이전트 프레임워크 ‘Memento’

작성일시 2025년 09월 10일 16:23214조회수

파인튜닝 없이 경험에서 학습하는 LLM 에이전트 프레임워크 ‘Memento’

Table of Contents

기사 요약

UCL과 화웨이 노아의 방주 랩이 파인튜닝 없이도 환경에 맞춰 적응하는 메모리 기반 LLM 에이전트 학습 패러다임을 제안했습니다.
이 방식은 M-MDP와 사례 기반 추론을 바탕으로 계획자·실행자·케이스 뱅크 구조와 MCP 도구 연계를 결합해 희소 피드백까지 학습으로 연결합니다.
여러 벤치마크에서 높은 성능을 입증했으며, 기업은 재학습 비용과 다운타임 없이 연속 학습형 에이전트를 구축할 수 있고 다음 과제로는 데이터 획득과 능동 탐사가 제시됩니다.

개요

UCL과 화웨이 노아의 방주 랩이 제시한 새로운 학습 패러다임은 기본 언어 모델을 건드리지 않고도 LLM 에이전트가 경험을 통해 행동을 갱신하도록 합니다. 구조화된 외부 메모리를 활용해 수행 중 얻은 경험을 축적·업데이트하며, 구현체인 Memento는 심층 리서치와 복잡한 다단계 추론 벤치마크에서 최고 수준의 성적을 거두었습니다. 이는 고비용의 재학습 없이 실시간으로 성능이 향상되는 범용 에이전트를 만들 수 있는 확장 가능한 경로를 기업에 제공합니다.

현재 LLM 에이전트의 한계

기존 접근은 크게 두 갈래입니다. 하나는 고정된 워크플로를 하드코딩한 특화 프레임워크로, 배포 후 새 상황이나 정보를 흡수하지 못합니다. 다른 하나는 지도 미세조정이나 강화학습으로 LLM 자체를 업데이트하는 방식이지만 방대한 데이터와 높은 계산 비용이 듭니다. 연구진은 이러한 방법이 연속 적응·온라인 학습에 비효율적이라고 지적했고, UCL의 왕쥔 교수는 파라미터를 바꾸면 사전학습으로 획득한 지식이 훼손될 위험이 있다고 경고했습니다.

메모리 기반 학습: 새 패러다임

연구진은 인간 기억에서 영감을 받아, LLM 파라미터는 고정한 채 외부 메모리에 과거 경험을 저장하고 유사 과제에 재활용하는 프레임워크를 제안합니다. 고전적 의사결정 틀인 마르코프 의사결정과정(MDP)을 확장해 메모리 보강 MDP(M-MDP)로 정식화하고, 사례 기반 추론(CBR)으로 유사 사례를 불러와 해법을 적응시킵니다. 이를 통해 웹 기반 업무를 성공적으로 수행한 경험을 구조가 비슷한 새로운 업무에 곧바로 전이할 수 있습니다.

Memento 작동 원리

에이전트는 계획자와 도구 활용 실행자가 번갈아 동작하며, 경험을 축적하는 케이스 뱅크가 함께 성장합니다. 계획자는 과제를 입력받아 케이스 뱅크에서 관련 사례를 조회하고, 현재 지시와 결합해 하위 과제로 쪼개는 계획 프롬프트를 생성합니다. 실행자는 일반 목적 LLM으로 각 하위 과제를 처리하며, 진행·결과는 하위 과제 메모리에 기록됩니다. 단계마다 계획자는 실행 이력을 검토해 완료 여부를 판단하고 필요 시 계획을 재구성합니다. 완료된 경험은 케이스 뱅크에 저장됩니다.

실행자는 MCP(Model Context Protocol)를 통해 검색엔진, 크롤러, 영상·이미지·파일 처리 등 다양한 외부 도구에 유연하게 연결됩니다. 케이스 뱅크는 의미 유사도 기반으로 사례를 찾는 비모수형과, 희소한 성공/실패 신호를 경유 단계까지 전파하도록 경량 신경망과 강화학습을 결합한 모수형 변종을 함께 제공합니다.

비모수형은 과거 성공 사례가 현재 문제 해결을 돕는 협업 필터링·유사도 학습과 유사하고, 모수형은 현실의 희소 피드백 문제를 완화해 안정적 학습을 돕습니다. 연구진은 이를 넓은 의미의 비모수적 접근으로 보며, 기본 LLM 파라미터를 바꾸지 않고도 학습 여지를 넓힌다고 설명합니다.

성능과 벤치마크 결과

백본 계획자로 GPT-4.1을, 실행자로 o3 및 o4-mini 등을 사용한 설정에서, DeepResearcher(실시간 웹 리서치·멀티홉 추론)에서 CoT+RAG 대비 성능을 거의 두 배로 끌어올려 F1 66.6%를 기록했습니다. GAIA(장기 계획·도구 사용)에서는 검증 세트 1위, 테스트 세트 4위를 차지해 다수의 오픈소스 프레임워크를 앞섰습니다. Humanity’s Last Exam(HLE)에서는 종합 2위로 GPT-5에 근접했고 Gemini 2.5 Pro 등을 상회했으며, 사실성·할루시네이션 강건성을 보는 SimpleQA에서도 최고 정확도를 달성했습니다.

RAG을 넘어서는 토대와 의미

연구진은 단순 검색 기반 접근을 넘어, M-MDP에 강화학습을 접목해 메모리를 파라미터화함으로써 메모리로부터 직접 일반화를 가능하게 했다고 강조합니다. 이는 기반 모델 연구와 경쟁하기보다 상호 보완적으로 작동하며, 기반 LLM이 강해질수록 프레임워크 위의 에이전트도 더 뛰어난 학습자가 됩니다. 동시에 프롬프트 엔지니어링과 문맥 내 학습을 재정의해, 머신러닝 연구자와 소프트웨어 엔지니어의 협업 간극을 줄입니다.

기업을 위한 시사점

이 접근은 고가의 재학습과 다운타임을 제거하고, 온디맨드로 행동을 갱신하는 연속 학습형 에이전트를 가능하게 합니다. 사내 배포형 오픈소스나 상용 모델과 손쉽게 결합하고, MCP로 사내 도구와 데이터 소스에 연결해 특정 업무에 특화되면서도 비용 효율적이고 지속 개선되는 시스템을 구축할 수 있습니다. 특히 규제·보안 요구가 높은 환경에서도 확장성과 운영 효율을 동시에 확보할 수 있습니다.

실제 적용 예시

Memento 도입 전 필수 체크리스트

적용할 업무 범위와 성공 지표 정의, 데이터 거버넌스와 개인정보·보안 정책 정비, MCP로 연동할 검색·크롤러·사내 API 목록화, 성공/실패·부분 보상 등 피드백 신호 설계, 초기 케이스 뱅크 시드 데이터 수집과 품질 기준 수립, 실행 로그·계획 갱신·정확도·비용·지연 등 운영 모니터링 체계 마련을 우선 점검합니다.

메모리 기반 에이전트 구축 단계별 안내

목표 과제와 도구 생태계를 정의한 뒤, 적합한 기반 LLM을 고르고 계획자·실행자 루프를 구현합니다. MCP로 외부·사내 도구를 연결하고, 의미 유사도 검색 중심의 비모수 케이스 뱅크로 시작해 파일럿을 운영합니다. 이후 희소 피드백이 큰 과제에는 경량 신경망+강화학습 기반 모수형을 도입해 피드백 전파를 강화하고, 운영 데이터로 프롬프트와 검색·계획 전략을 반복 개선하며 점진적으로 스케일아웃합니다.

앞으로의 과제

완전한 자율 에이전트를 향한 최대 병목은 양질의 데이터 획득입니다. 에이전트가 환경과 상호작용하며 충분한 피드백을 받아야 행동을 정교화할 수 있기 때문입니다. 다음 분기점은 필요·호기심 기반의 능동 탐사로, 환경을 주도적으로 탐색해 학습 데이터를 스스로 확보하는 능력입니다. 이러한 기반 위에서 Memento와 같은 프레임워크는 자율 시스템으로 가는 경로를 더욱 분명히 합니다.