leangnews
Command Palette
Search for a command to run...
2026년 02월 11일 10:02
관찰 메모리, 에이전트 비용 10배 절감…장문 맥락서 RAG 앞서
기사 요약
- RAG의 한계를 보완하는 오픈소스 ‘관찰 메모리’는 Observer·Reflector 에이전트로 대화 이력을 압축해 안정적 컨텍스트를 유지한다.
- 프롬프트 캐싱을 극대화해 토큰 비용을 최대 10배 절감하며, LongMemEval에서 GPT-5-mini 기준 94.87%를 기록했다.
- 장기 세션·툴 중심 작업에 강점이 있지만, 개방형 검색이나 컴플라이언스 위주의 정밀 회수에는 덜 적합할 수 있다.
왜 ‘관찰 메모리’인가: 에이전트 워크플로 한계와 대안
팀들이 단명형 챗봇에서 운영 환경의 장기·툴 중심 에이전트로 전환하면서 RAG의 속도·지능 한계가 두드러지고 있다. Mastra가 오픈소스로 공개한 ‘관찰 메모리’는 대화 기록을 두 백그라운드 에이전트(Observer, Reflector)가 날짜가 붙은 관찰 로그로 압축해, 동적 검색 없이도 지속적이고 안정적인 컨텍스트를 제공한다. 텍스트는 3~6배, 대용량 툴 출력은 5~40배까지 압축한다.
관찰형 메모리의 동작: Observer·Reflector 압축 파이프라인
관찰 메모리는 컨텍스트 창을 두 블록으로 나눈다. 첫째는 이전 대화에서 뽑아낸 압축·타임스탬프 노트(관찰 블록), 둘째는 현 세션의 원시 메시지 이력이다. 관찰되지 않은 메시지가 3만 토큰(설정 가능)에 이르면 Observer가 핵심을 추출해 관찰 블록에 추가하고 원문은 제거한다. 관찰 블록이 4만 토큰(설정 가능)을 넘으면 Reflector가 관련 항목을 묶고 대체된 정보를 삭제해 재구조화한다. 형식은 순수 텍스트 기반이며, 벡터 DB나 그래프 DB가 필요 없다.
안정적 컨텍스트로 비용 10배 절감: 프롬프트 캐싱
관찰 메모리의 경제성은 프롬프트 캐싱에서 나온다. 주요 제공사는 캐시 적중 시 토큰 비용을 4~10배 낮추지만, 대부분의 시스템은 매 턴 동적 컨텍스트를 주입해 캐시를 무효화한다. 관찰 메모리는 반영 단계 전까지 관찰 블록이 추가 전용으로 유지돼 시스템 프롬프트+기존 관찰이 안정적 접두를 형성한다. 3만 토큰 임계 전까지 매 턴 전체 캐시 적중이 가능하고, 관찰 실행 후에도 접두 일관성으로 부분 적중을 유지한다. 반영은 드물게 돌아 전체 캐시를 초기화한다. Mastra의 LongMemEval 실행에서 평균 컨텍스트 창은 약 3만 토큰이었다.
컴팩션과 다른 Observation Memory의 결정 로그
일반적 컴팩션은 창이 가득 차면 전 이력을 한꺼번에 요약해 문서형 개요를 만든다. 이 방식은 요지는 남기되 사건·결정·툴 상호작용의 세부가 소실되기 쉽고, 대용량 배치 압축이라 계산 비용도 크다. 반면 관찰 메모리의 Observer는 더 잦은 주기로 작은 덩어리를 처리해 ‘이벤트 기반 결정 로그’를 남긴다. Reflector 단계에서도 중복 제거와 재배열을 하되 사건 중심 구조는 유지되어, 결과물은 문서가 아닌 결정·행동의 로그처럼 읽힌다.
벤치마크 결과와 관찰 메모리의 한계
관찰 메모리는 GPT-5-mini로 LongMemEval 94.87%를 기록하며 완전히 안정적이고 캐시 가능한 컨텍스트 창을 유지했다. 표준 GPT-4o에서는 84.23%로, Mastra 자체 RAG(80.05%)를 상회했다. 다만 관찰 메모리는 외부 코퍼스 전반을 탐색하기보다 ‘에이전트가 이미 보고 결정한 정보’를 우선시하므로, 개방형 지식 탐색이나 컴플라이언스 중심의 정밀 회수에는 덜 적합할 수 있다.
엔터프라이즈 적용 사례와 도입 체크포인트
Mastra(과거 Gatsby를 개발해 Netlify에 매각한 엔지니어들이 설립)는 CMS(Sanity, Contentful) 내 인앱 챗봇, 엔지니어링 알림을 분류·결정하는 AI SRE, 전통 산업의 문서 처리 에이전트 등 장기 대화를 요구하는 사례에 관찰 메모리를 적용 중이다. 제품 내 에이전트는 몇 주 전 합의한 보고서 포맷이나 처리된 알림의 결정 내역을 잊지 않아야 하며, 관찰 메모리는 재설명 없이 수개월 맥락을 유지하게 해 제품 경험을 안정화한다. 이 시스템은 Mastra 1.0에 포함되어 출시되었고, LangChain·Vercel AI SDK 등 외부 프레임워크용 플러그인도 공개됐다. 평가 시 고려할 질문은 다음과 같다: 세션 간 유지할 맥락의 크기, 손실 압축 허용치와 원문 전수 검색의 필요성, RAG의 동적 검색 대비 안정 컨텍스트의 적합성, 그리고 대용량 툴 출력의 압축 필요 여부. Mastra의 Sam Bhagwat는 메모리를 도구 사용, 워크플로 오케스트레이션, 가시성, 가드레일과 함께 고성능 에이전트의 핵심 프리미티브로 지목하며, 생산 단계에서는 ‘잊지 않는 경험’이 필수라고 강조한다.