leangnews

Command Palette
Search for a command to run...

2026년 03월 07일 09:58

MIT, 정확도 손실 없이 KV 캐시 50배 압축 ‘Attention Matching’

기사 요약

초장문 문서·장기 작업에서 KV 캐시가 메모리 병목이 되며, MIT의 Attention Matching이 이를 초고속 압축으로 해결한다.
어텐션 출력과 어텐션 질량을 보존하도록 참조 질의를 사용하고, OLS/NNLS 등 경량 대수로 값을 맞춰 50배 압축에도 정확도 저하가 거의 없다.
다만 100배 같은 극한 압축이나 폐쇄형 API 환경에선 한계가 있어, 오픈 웨이트 모델과 상용 추론 엔진 통합 작업이 필요하다.

MIT Attention Matching으로 KV 캐시 병목 해소

대기업용 AI가 대용량 문서와 장기 추론을 처리할 때, 대화 문맥에 비례해 커지는 KV 캐시가 가장 큰 메모리 병목으로 작용한다. MIT 연구진의 Attention Matching은 이 KV 캐시를 초고속으로 압축해 최대 50배까지 줄이면서도 정확도 손실을 거의 발생시키지 않는 기법으로 주목받고 있다.

KV 캐시 메모리 병목과 기존 대안의 한계

대규모 언어모델은 토큰 단위로 순차 생성하며, 재계산을 피하기 위해 과거 토큰의 키·값 표현을 KV 캐시에 저장한다. 문맥이 길어질수록 이 메모리는 기하급수적으로 늘어나고, 동시성 제한·배치 축소·오프로딩 증가 같은 운영 제약을 초래한다. 토큰 제거나 유사 토큰 병합 등 전통적 방법은 경미한 압축에서는 유효하나, 높은 압축률에선 성능이 급격히 저하된다. 요약으로 대체하는 방식도 중요한 정보를 잃어 다운스트림 성능을 심각하게 해치는 경우가 많다. 대안으로 제시된 Cartridges는 고압축이 가능하지만, 잠재 KV 캐시 모델을 기울기 기반 최적화로 학습해야 해 컨텍스트 하나를 압축하는 데도 GPU 시간이 수시간 소요되어 실시간 서비스에는 부적합하다.

Attention Matching: 원리와 핵심 아이디어

Attention Matching은 느린 학습 과정을 생략하고, 모델의 메모리 상호작용을 보존하는 두 수학적 속성—어텐션 출력과 어텐션 질량—을 압축본이 정확히 모사하도록 만든다. 이 두 속성을 맞추면 이후 예측 시 새로운 질의가 추가되어도 원본과 동일하게 동작한다.

참조 질의 생성과 검증

압축 전, 모델이 해당 문맥을 추론할 때 수행할 내부 검색을 대리하는 소수의 참조 질의를 만든다. 예컨대 repeat-prefill(이전 문맥 반복 지시)이나 self-study(핵심 사실 집계, 날짜·숫자 구조화 등 합성 과제) 같은 기법을 활용한다. 압축된 메모리가 이 참조 질의에 정확히 응답하면, 실제 사용자 질의에도 일관된 성능을 낼 가능성이 높다.

키 보존, 값 추정, 바이어스 설계

시스템은 높은 어텐션 값 등 신호를 기준으로 보존할 키를 선택하고, 해당 키들과 참조 질의를 이용해 값과 스칼라 바이어스 항을 계산한다. 바이어스는 제거된 다수 키의 질량을 보존하도록 하여, 남은 각 키가 더 큰 의미적 덩어리를 대표하게 만든다. 이때 값 맞춤은 일반 최소제곱(OLS)과 비음수 최소제곱(NNLS) 같은 경량 대수로 해결해, 기울기 기반 최적화를 완전히 회피한다. 또한 긴 문맥에서는 청크 단위 압축을 적용해 연속 구간을 독립적으로 처리한 뒤 연결함으로써 효율을 높인다. 이러한 구성 덕분에 Attention Matching은 최적화 위주 방법 대비 현저히 빠르다.

성능 평가: 50배 KV 캐시 압축과 정확도 유지

Llama 3.1, Qwen-3 등 오픈소스 모델로 QuALITY(5천~8천 단어 읽기 이해)와 LongHealth(6만 토큰 다중 환자 의료기록) 데이터셋을 스트레스 테스트한 결과, Attention Matching은 문서당 수초 내 처리로 정확도 저하 없이 KV 캐시를 50배 압축했다. 같은 수준의 품질을 Cartridges로 내려면 컨텍스트당 수시간의 GPU 연산이 필요했다. 특히 고밀도 의료기록에서는 요약 기반 대안이 무맥락 기준선 수준으로 붕괴했지만, Attention Matching은 유의미한 정확도를 유지했다. 다만 정보 밀도가 매우 높을수록 압축 비율을 다소 완화하는 것이 실무적으로 바람직하다. 요약 위에 Attention Matching을 추가 적용한 ‘혼합’ 방식은 200배 압축에서 요약 단독과 동일한 정확도를 훨씬 작은 메모리로 달성했다.

온라인 압축(Online Compaction) 사례

AIME 고급 수리추론 시험에서 물리적 메모리 상한을 강제하고, 메모리가 찰 때마다 Attention Matching으로 KV 캐시를 50%씩 즉시 축소하는 절차를 최대 6회 연속 수행해도 문제를 성공적으로 해결했으며, 사실상 무제한 메모리 모델과 유사한 성능을 보였다.

한계와 도입 시 고려사항

약 50배 수준에서는 속도·품질 균형에서 Attention Matching이 우위지만, 100배 같은 극한 압축에선 느린 Cartridges가 더 나은 정확도를 보일 수 있다. 코드가 공개되었으나, 이는 플러그 앤 플레이 소프트웨어라기보다 모델 레이어 기법에 가깝다. 즉, 기존 모델 위에 적용 가능하되 가중치 접근이 필요해 폐쇄형 API만 사용하는 기업은 곧바로 적용하기 어렵다. 또한 프리픽스 캐싱, 가변 길이 메모리 패킹 등으로 고도화된 상용 추론 엔진에 잠재 공간 KV 압축을 자연스럽게 융합하려면 별도의 엔지니어링 노력이 요구된다. 단, 수집 후 압축(ingestion 후 즉시 대형 툴 출력·장문 문서 압축) 등은 즉시 적용 가능한 유망 사례다. 대형 공급사들도 점차 모델 제공 단계에서 압축을 내장하는 방향으로 이동 중이며, OpenAI는 평문 요약 대신 불투명 객체를 반환하는 블랙박스 compaction 엔드포인트를 공개하는 등 흐름이 가속화되고 있다.

실제 적용 예시

대규모 법률 문서 분석 워크플로우

계약서와 부속서 등 장문 문서를 전처리한 뒤 곧바로 Attention Matching으로 KV 캐시를 20~50배 압축해 메모리 예산을 절감하고, 질의응답·조항 비교·리스크 태깅 시 원문 수준의 정밀도를 유지한다.

고객 대화형 에이전트의 장기 세션 유지

세션별 KV 캐시가 임계치에 근접하면 백그라운드에서 Attention Matching을 수행해 과거 맥락을 보존한 채 컴팩트하게 유지함으로써 동시성·지연시간을 개선한다.

자율 코딩 에이전트의 메모리 한도 대응

디버깅 중 트레이스·로그가 폭증할 때 온라인 압축을 주기적으로 실행하여 KV 캐시를 단계적으로 축소하고, 추론 품질 저하 없이 한정된 GPU 메모리에서 긴 탐색을 지속한다.

최신기사

앤트로픽, ‘클로드 마켓플레이스’ 공개…기업에 파트너형 클로드 도구 제공

웹사이트 트래픽 체커로 디지털 의사결정을 정교하게 만드는 실무 가이드

구글, 벡터DB 없이 지속 학습하는 ‘항상온 메모리 에이전트’ 공개

LangChain CEO: 모델만으론 부족, ‘하니스 엔지니어링’이 에이전트의 열쇠

AI 에이전트를 위한 Google Workspace CLI, 통합 명령줄 인터페이스 공개

Databricks, 엔터프라이즈 검색 전용 RAG 에이전트 ‘KARL’ 공개

OpenAI, GPT-5.4 공개: 네이티브 컴퓨터 사용·엑셀/시트 연동

브릴리언트 랩스·뉴포닉·더스테이지, 온디바이스 AI 스마트 안경 동맹

Siren Fusion 2026: 인적·기술·아이디어의 교차로, 초청형 정상회담