절차적 메모리로 AI 에이전트의 비용과 복잡도를 줄이는 방법

절차적 메모리로 AI 에이전트의 비용과 복잡도를 줄이는 방법

절차적 메모리로 AI 에이전트의 비용과 복잡도를 줄이는 방법


기사 요약

  • 저장대학교와 알리바바가 제안한 Memp는 LLM 에이전트에 지속 갱신되는 절차적 메모리를 부여해 복잡한 과제를 더 빠르고 안정적으로 수행하게 한다.
  • Memp는 과거 수행 경로에서 절차적 지식을 구축·검색·갱신해 시행착오를 줄이고 토큰·스텝 수를 크게 절감하며, 콜드스타트는 평가 지표 기반 부트스트랩으로 해결한다.
  • 대형 모델이 학습한 절차적 메모리는 소형 모델로 전이돼 성능을 끌어올릴 수 있고, 향후 LLM-as-judge로 자기교정 루프를 강화해 자율 에이전트에 다가갈 수 있다.

절차적 메모리로 AI 에이전트의 비용과 복잡도를 낮추다

저장대학교와 알리바바 그룹 연구진은 대규모 언어모델(LLM) 에이전트에 동적으로 진화하는 절차적 메모리를 부여하는 프레임워크 ‘Memp’를 제안했다. 사람의 연습 효과처럼 경험이 쌓일수록 메모리가 갱신되며, 매 과제를 처음부터 다시 배우지 않아도 되어 엔터프라이즈 자동화의 신뢰성과 효율을 높인다.

왜 절차적 메모리인가

장기 과제의 취약성과 반복 학습의 비용

LLM 에이전트는 복잡한 다단계 업무 자동화에 유망하지만, 네트워크 오류, UI 변화, 스키마 변경 같은 예측 불가 이벤트로 전체 흐름이 쉽게 무너진다. 현재 많은 에이전트는 매번 초기화해 다시 시도해야 하므로 시간과 비용이 크다. 겉모습이 달라도 깊은 구조가 유사한 과제가 많기 때문에, 과거 성공과 실패에서 절차적 메모리를 추출·재사용하는 능력이 핵심이다.

기존 접근의 한계

지금까지의 절차 지식은 고정 프롬프트나 모델 파라미터에 수작업으로 묶이는 경우가 많아 업데이트가 느리고 비싸다. 메모리 증강 프레임워크들도 기술의 구축·색인·교정·정리(pruning)를 수명주기 관점에서 정교하게 다루지 못했고, 새로운 경험이 성능을 저하하지 않는다는 보장도 부족했다.

Memp의 작동 방식

구축·검색·갱신의 연속 루프

Memp는 과제 불문(task-agnostic) 프레임워크로, 경험(수행 경로, trajectory)에서 메모리를 구축하고, 새로운 과제에 맞춰 관련 경험을 검색하며, 실행 결과를 반영해 메모리를 갱신하는 순환 구조를 갖는다. 메모리는 단계별 행동의 원문 기록 또는 스크립트 같은 상위 추상으로 증류해 저장할 수 있다.

지능형 검색과 효과적인 갱신

새 과제를 받으면 벡터 검색이나 키워드 추출로 가장 유사한 과거 경로를 찾는다. 무엇보다 중요한 것은 갱신 전략이다. 단순 추가, 성공 사례만 보존, 실패 원인 반영·수정 등 다양한 방식을 통해 절차적 메모리가 품질 좋게 진화한다. 연구진은 실패 반성 기반 수정이 가장 효과적이라고 보고한다.

다른 메모리 프레임워크와의 차별점

‘무엇’을 넘어서 ‘어떻게’에 초점

Mem0, A-MEM 등은 대화나 단일 경로 내 핵심 정보를 구조화해 일관성을 높이지만, 주로 “무엇이 일어났는가”를 기억한다. 반면 Memp는 경로 간에 일반화 가능한 “어떻게 할 것인가”에 대한 절차적 메모리를 다뤄, 유사 과제에서 매번 처음부터 탐색하지 않도록 한다. 성공적 워크플로를 절차적 사전지식으로 증류해 성공률을 올리고 단계 수를 줄인다.

콜드스타트 문제 해결

평가 지표로 부트스트랩

완벽한 정답 경로가 없을 때는 먼저 견고한 평가 지표(규칙 기반 혹은 다른 LLM 판정)를 정의한다. 이 기준 아래 최신 모델이 에이전트 워크플로 안에서 탐색하도록 두고, 높은 점수를 받은 경로를 초기 메모리로 채택해 빠르게 시동을 건다.

실험과 결과

효율·성공률·토큰 비용의 동시 개선

연구진은 GPT-4o, Claude 3.5 Sonnet, Qwen2.5 위에 Memp를 얹어 ALFWorld(가상 가사 업무), TravelPlanner(정보 탐색) 등에서 시험했다. 절차적 메모리의 구축·검색을 통해 무익한 탐색과 시행착오가 줄어 성공률이 상승했고, 과제 완료까지의 단계 수와 토큰 소비가 크게 감소했다.

전이 학습: 대형 모델의 노하우를 소형 모델에

특히 GPT-4o가 생성한 절차적 메모리를 Qwen2.5-14B에 이식하자, 소형 모델의 성공률이 오르고 단계 수가 감소했다. 소형 모델이 단일·단계적 행동은 잘해도 장기 계획과 추론에서 흔들리는 약점을, 대형 모델의 절차적 메모리가 보완한 것이다. 이는 고가 모델로 지식을 축적해, 비용 효율적인 모델에 배치하는 전략의 실용성을 시사한다.

실제 적용 예시

에이전트 도입 전 필수 체크리스트

명확한 평가 지표 정의 여부, 데이터/UI 변경 내성 요구사항, 실패 로그와 반성 루프 설계, 메모리 저장 형식(원문 vs 추상) 선택, 보안·프라이버시 정책, 비용 예산(토큰/호출/저장) 등을 점검해 절차적 메모리 운영 기반을 마련한다.

절차적 메모리 기반 에이전트 운영 프로세스 단계별 안내

(1) 초기 부트스트랩: 지표 수립 후 경로 수집·선별 (2) 메모리 구축: 성공 경로 증류·표준화 (3) 검색·적용: 신규 과제에 유사 경로 매칭 (4) 실행·모니터링: 단계·토큰 비용 추적 (5) 갱신·교정: 실패 원인 반영, 중복/노후 절차 정리 (6) 전이·배포: 대형→소형 모델 이식 및 A/B 검증.

완전 자율 에이전트를 향해

LLM-as-judge로 자기교정 강화

연구진은 실환경 운영 중 메모리 갱신을 통해 과제 숙련도가 거의 선형적으로 향상된다고 보고했다. 다만 연구 보고서 작성처럼 명확한 정답 신호가 약한 과제에서는 LLM을 심판으로 활용해 미묘한 품질 피드백을 제공하고, 자기교정 루프를 확장해야 한다. 이 접근은 스케일러블하고 견고한 학습 사이클을 만들어, 회복력 있고 적응적인 자율형 AI 에이전트에 한 걸음 더 다가가게 한다.