leangnews

2025년 12월 06일 09:02

GAM, '컨텍스트 로트' 해결: 장문맥 LLM 능가한 이중 메모리

GAM, '컨텍스트 로트' 해결: 장문맥 LLM 능가한 이중 메모리


기사 요약

  • AI 에이전트가 대화와 작업의 맥락을 잃는 ‘컨텍스트 로트’를 해결하기 위해 중국·홍콩 연구진이 이중 에이전트 메모리인 GAM을 제안했다.
  • 요지는 모든 정보를 손실 없이 보존하는 저장과, 필요한 순간 정밀 검색으로 재구성하는 회상을 분리해 JIT 방식으로 문맥을 조립하는 것이다.
  • 벤치마크에서 GAM은 RAG와 장문맥 모델을 전반적으로 앞섰고, 특히 RULER에서 90%+ 정확도로 장기 상태 추적의 한계를 돌파했다.

개요: '컨텍스트 로트'와 GAM

오늘날의 대형 언어 모델은 대화가 길어지면 앞선 맥락을 잊는 ‘컨텍스트 로트’에 시달린다. 중국·홍콩 공동 연구팀은 이를 해결할 수 있는 GAM(General Agentic Memory)을 제안하며, 기억의 저장과 회상 역할을 분리해 긴 시간축의 정보를 부담 없이 유지·활용하는 방식을 내놓았다.

거대 컨텍스트 창의 한계와 비용

모든 LLM은 고정된 컨텍스트 윈도우라는 작업 메모리 한계를 가진다. 최근 Mixtral 8x7B(32K), MosaicML MPT-7B-StoryWriter-65k+, Google Gemini 1.5 Pro(128K), Anthropic Claude 3(200K, 최대 100만 토큰 확장), Microsoft Phi-3(128K) 등으로 창 크기가 커졌지만, 긴 입력 초반의 세부를 안정적으로 되살리는 데는 여전히 취약하다. 입력이 길수록 원거리 토큰에 대한 주의가 약해지고 정확도가 서서히 저하되며, 불필요한 정보가 늘면 신호대잡음비가 나빠져 응답 품질과 속도(토큰 지연)도 희생된다.

경제적 제약도 크다. API에 방대한 프롬프트를 밀어 넣으면 입력 토큰 비용이 직선적으로 증가한다. 캐싱으로 완화할 수는 있지만, 상시 과도한 문맥을 싣는 관행의 근본 처방이 되지 못한다. 요약과 RAG로 보완하려 해도, 요약은 미묘하지만 중요한 디테일을 잃기 쉽고, 전통적 RAG는 세션이 길게 이어지거나 정보가 시간에 따라 변할 때 쉽게 깨진다. ‘에이전틱 RAG’, ‘RAG 2.0’ 같은 변형도 검색을 해법으로 전제한다는 근본 한계를 공유한다.

GAM 설계: 이중 에이전트 메모리 구조

핵심 발상은 간단하다. 기억(기록)과 회상(검색)을 분리한다. 이렇게 하면 모든 데이터를 손실 없이 보존하면서도, 필요한 순간 그때그때 맞춤 맥락을 가볍게 조립할 수 있다.

메모라이저(memorizer): 과부하 없이 전체 기록

모든 상호작용을 있는 그대로 저장하고, 각 교환을 간결한 메모로 정리해 검색 가능한 페이지 스토어에 누적한다. 무엇이 중요한지 성급히 압축·선별하지 않고, 페이지 단위 구조화·메타데이터 부여·가벼운 스니펫 요약 등으로 빠른 훑어보기를 돕되 원본 세부는 끝까지 보존한다.

리서처(researcher): 심층·계획형 검색 엔진

행동이 필요할 때 임베딩과 BM25 같은 키워드 검색을 결합하고, 페이지 ID를 따라가며 조각을 재구성한다. 벡터 검색·키워드 매칭·직접 조회를 층위적으로 혼합하고, 증거 공백을 점검해 충분한 근거가 모일 때까지 반복 검색·통합·성찰을 수행, 특정 작업에 맞는 브리핑을 만든다.

JIT 메모리 파이프라인의 직관

소프트웨어 공학의 JIT(Just-in-Time) 컴파일 비유가 유효하다. 사전에 과도하게 압축된 고정 메모리를 만들지 않고, 최소한의 단서와 원본 기록 아카이브를 유지한 뒤 요청 시점에 딱 맞는 문맥을 동적으로 ‘컴파일’한다. 이렇게 하면 길어진 대화에서도 과압축 부작용 없이 정확한 정보가 정확한 순간에 제공된다.

벤치마크: RAG·장문맥 모델 대비 우위

연구진은 표준 RAG 파이프라인과 대형 컨텍스트 모델(GPT-4o-mini, Qwen2.5-14B 등)을 상대로 네 가지 장문맥·메모리 집중 벤치마크를 평가했다. LoCoMo는 다세션 대화에서의 단일·다단 점프, 시간추론, 개방형 과제 기억을 측정한다. HotpotQA는 MemAgent의 메모리 스트레스 버전을 활용해 관련 문서와 교란 문서를 혼합, 56K·224K·448K 토큰 컨텍스트에서 성능을 본다. RULER는 128K 토큰 상황에서 검색 정확도, 다중 단계 상태 추적, 장시퀀스 집계, QA 성능을 점검한다. NarrativeQA는 책·영화 전체 텍스트 기반 질의 응답으로, 평균 87K 토큰의 300개 예제를 샘플링했다.

결과는 일관됐다. RULER(장거리 상태 추적)에서 90%를 넘는 정확도를 기록하며 두드러졌고, 요약 과정에서 핵심이 사라진 RAG는 급격히 성능이 무너졌다. 장문맥 모델도 정보가 기술적으로는 존재해도 시간 경과에 따라 ‘희미해지는’ 현상 탓에 흔들렸다. 정밀 회상으로 필요한 토큰만 엄선하는 접근이 대규모 컨텍스트 누적보다 효과적임을 보여준다.

컨텍스트 엔지니어링과 경쟁적 접근

에이전트 실패의 진짜 원인은 종종 ‘모델 한계’보다 ‘구조화되지 않은 문맥’에 있다. 최근 업계는 프롬프트 엔지니어링을 넘어, 지시·대화 이력·검색 문서·도구·선호·출력 형식을 아우르는 컨텍스트 엔지니어링으로 이동 중이다. 이 과정에서 Anthropic은 선별·진화형 컨텍스트 상태를, DeepSeek은 이미지를 매개로 한 메모리 저장을, 또 다른 중국 연구진은 평생 적응형 메모리에 기초한 ‘시맨틱 운영체제’를 모색하고 있다.

한편, 본 접근은 손실 회피와 지능형 회상에 방점을 찍는다. 나중에 무엇이 중요할지 섣불리 가정하지 않고 전부 보존한 뒤, 실행 시 전용 연구 엔진이 관련 부분만 찾아 조립한다. 며칠에 걸친 프로젝트, 지속적 워크플로, 장기 관계를 다루는 에이전트에 특히 유용하다.

의미와 전망

연산자원(컴퓨트)을 늘린다고 알고리즘이 자동으로 좋아지지 않듯, 컨텍스트 창 확대만으로는 장기 메모리 문제가 풀리지 않는다. 구조를 다시 설계하는 접근이 필요하며, GAM은 메모리를 ‘엔지니어링 과제’로 다뤄 브루트포스가 아닌 체계로 해결하자고 제안한다. 기업용 에이전트가 장기간의 맥락을 정확히 기억·연결·회상할 수 있어야 신뢰 가능한 지능형 시스템이 된다. GAM은 ‘더 큰 모델’이 아니라 ‘더 똑똑한 메모리와 컨텍스트 아키텍처’가 다음 프런티어임을 시사한다.

이 기사 공유하기