leangnews

Command Palette
Search for a command to run...

2025년 10월 10일 01:00

ReasoningBank: 현실 변수에 강한 LLM 에이전트 메모리 프레임워크

기사 요약

일리노이대 어배너-섐페인과 구글 클라우드 AI가 LLM 에이전트의 성공·실패 경험에서 일반화 가능한 추론 전략을 추출해 축적하는 메모리 프레임워크 ReasoningBank를 공개했다.
ReasoningBank는 테스트 타임 스케일링과 결합해 성능과 효율을 크게 높였고, WebArena와 SWE-Bench-Verified 등 벤치마크에서 기존 메모리 방식보다 일관되게 앞섰다.
이 접근법은 비용을 절감하면서도 지속 학습·적응하는 엔터프라이즈 에이전트를 가능하게 하며, 모듈식 기술을 조합하는 구성적 지능의 기반을 제시한다.

LLM 에이전트의 기억을 재구성하는 ReasoningBank

일리노이대 어배너-섐페인(University of Illinois Urbana-Champaign)과 구글 클라우드 AI 리서치가 LLM 에이전트의 경험을 체계화해 축적하는 메모리 프레임워크 ReasoningBank를 선보였다. 핵심은 과거 성공과 실패에서 ‘일반화 가능한 추론 전략’을 증류해 재사용 가능한 구조화 메모리로 저장하고, 추론 시 이 기억을 불러와 같은 실수를 피하고 더 나은 결정을 내리게 하는 것이다.

LLM 에이전트 메모리의 과제

한계 진단 (메모리의 부재가 만드는 문제)

장시간 구동되는 LLM 에이전트는 연속적인 과제를 마주하지만, 현재 방식은 각 과제를 고립적으로 처리해 과거의 시행착오를 반복하고 관련 문제에서 얻은 통찰을 버리기 쉽다. 그 결과 시간이 지나도 역량이 축적되지 않는다.

기존 접근의 부족함

과거 시도들은 대화 로그나 성공 사례만을 저장하거나, 텍스트·그래프 등 형식만 바꿔 재사용하는 데 그쳤다. 이 방식은 실패에서 얻을 수 있는 중요한 시그널을 놓치고, 전이 가능한 상위 추론 패턴을 제대로 뽑아내지 못해 ‘기록’은 되지만 ‘행동 가능한 일반 지침’으로 이어지지 못했다.

ReasoningBank의 작동 방식

경험의 증류와 메모리화 (ReasoningBank 메모리 프레임워크)

ReasoningBank는 성공·실패를 모두 소재로 삼아 유용한 전략과 예방적 교훈을 구조화된 메모리 아이템으로 만든다. 성공/실패 판정은 사람 레이블 없이 LLM-as-a-judge를 활용하며, 임베딩 기반 검색으로 현재 과제와 유사한 기억을 찾아 시스템 프롬프트에 주입해 의사결정을 돕는다. 과제가 끝나면 새 기억을 생성·정제·병합해 메모리 뱅크를 갱신하는 폐루프가 형성된다.

실제 적용 예시

예를 들어 ‘소니 헤드폰 찾기’ 과제에서 광범위한 검색어로 4,000개가 넘는 무관한 결과가 나온 실패가 있었다면, ReasoningBank는 실패 원인을 분석해 ‘검색어 최적화’와 ‘카테고리 필터로 범위 축소’ 같은 전략을 추출한다. 이후 유사 과제에서 이 전략을 불러와 불필요한 탐색을 줄이고 성공 확률과 효율을 높인다.

스케일링으로 기억을 가속: MaTTS

병렬 스케일링 (Memory-aware Test-Time Scaling)

연구진은 테스트 타임 스케일링과 메모리의 시너지를 확인했다. 표준 스케일링은 같은 질문에 독립 답안을 여러 개 생성하지만, MaTTS는 동일 문제에서 생기는 대비 신호를 적극 활용한다. 병렬 모드에서는 다수의 추론 경로를 생성·대조해 일관된 추론 패턴을 찾아낸다.

순차 스케일링 (점진적 자기수정)

순차 모드에서는 단일 시도 안에서 추론을 점진적으로 수정하며, 중간 메모와 정정 자체가 유의미한 메모리 신호가 된다. 이렇게 만들어진 다양한 경험은 ReasoningBank의 기억 품질을 끌어올리고, 축적된 기억은 다시 더 유망한 경로로 탐색을 안내하는 선순환을 이룬다.

평가 결과: 성능·효율 동시 개선

벤치마크와 수치

WebArena(웹 브라우징)와 SWE-Bench-Verified(소프트웨어 엔지니어링)에서 구글 Gemini 2.5 Pro, 앤트로픽 Claude 3.7 Sonnet 등 다양한 백본을 사용해 비교한 결과, ReasoningBank는 메모리 미사용·경로 기반·워크플로 기반 등 고전적 메모리 기법을 일관되게 상회했다. WebArena에서는 메모리 미사용 대비 최대 8.3%p의 성공률 향상과 상호작용 단계 수 감소를 달성했으며, 어려운 교차 도메인 과제에서도 일반화 성능을 보였다. MaTTS 결합 시 병렬·순차 모두 표준 스케일링을 꾸준히 앞질렀다.

비용 절감과 사용자 경험

실무 사례로, 메모리 없는 에이전트가 웹사이트에서 적절한 상품 필터를 찾는 데 시행착오 8단계를 거친 반면, 관련 기억을 활용하면 이 비용을 거의 절반 수준으로 줄일 수 있었다. 이는 운영비를 낮추고 문제 해결 속도를 높여 사용자 경험을 개선한다.

기업 적용과 전망

지속 학습 에이전트를 향해

이 프레임워크는 소프트웨어 개발, 고객 지원, 데이터 분석 등 복잡한 워크플로에서 경험을 통해 학습·적응하는 비용 효율적 에이전트를 구축하는 실용 경로를 제시한다. 코드 에이전트가 API 연동, 데이터베이스 관리 같은 모듈식 기술을 개별 과제로 익히고, 시간이 지나며 이를 탄력적으로 재조합해 더 복잡한 작업을 수행하는 구성적 지능의 기반이 마련된다. ReasoningBank는 이러한 ‘평생 학습’ 에이전트를 구현하는 핵심 메모리 층으로 자리매김한다.

최신기사

Ease Health, a16z서 4,100만 달러 유치…AI 네이티브 행동건강 운영체제 재정의

거래소 애그리게이터는 어떻게 암호화폐 인프라가 되었나: 사례와 시사점

알리바바 Qwen3.5-9B, OpenAI 120B 능가…오픈소스로 노트북에서도 구동

인튜잇, 40년 소상공인 데이터로 SaaSpocalypse 정면돌파

딥페이크보다 위험한 건 ‘속삭임’? 웨어러블 AI의 일상적 조작

AI의 '정렬 위장' 확산: 자율 에이전트 시대 보안 과제

과열된 AI와의 바이브 코딩: 구글 AI 스튜디오를 팀처럼 다루며 얻은 교훈

앤스로픽과 펜타곤 충돌: 기업에 필요한 상호운용성 전략

마이크로소프트 OPCD: 장문 시스템 프롬프트 제거해도 모델 성능 유지

기업의 MCP 도입 속도, 보안 통제보다 훨씬 빠르다