leangnews

2026년 02월 13일 09:01

엔비디아 DMS로 LLM 추론 메모리 8배 절감, 정확도 손실 없이

엔비디아 DMS로 LLM 추론 메모리 8배 절감, 정확도 손실 없이


기사 요약

  • 엔비디아의 동적 메모리 희소화(DMS)는 LLM의 KV 캐시를 학습적으로 압축해 메모리 비용을 최대 8배 줄이면서도 정확도를 유지하거나 향상시킨다.
  • 지연 제거와 경량 레트로피팅으로 표준 모델을 수시간 내 자체 압축형으로 전환하고, 같은 메모리 대역폭에서 더 긴 사고 전개와 다중 경로 탐색을 가능하게 한다.
  • AIME 24 등 벤치마크에서 파레토 프런티어를 이동시키고 Qwen3-8B 기준 최대 5배 처리량을 보여 기업 인프라 비용과 지연을 크게 낮춘다.

LLM 추론 메모리 8배 절감: 동적 메모리 희소화(DMS)

엔비디아 연구진은 동적 메모리 희소화(DMS) 기법으로 LLM이 추론 중 생성하는 KV 캐시를 지능적으로 압축해, 속도나 정확도 저하 없이 메모리 사용량을 대폭 줄였다. 실험 결과, 모델은 더 오래 “생각”하고 더 많은 해법을 탐색하면서도 메모리와 대역폭 예산을 효율적으로 활용했다.

추론의 병목: 왜 KV 캐시가 문제인가

복잡한 과제에서 LLM은 체인 오브 소트(chain-of-thought) 토큰을 늘려 중간 추론 과정을 전개한다. 그러나 토큰이 늘어날수록 KV 캐시는 선형으로 커져 GPU 메모리를 잠식하고, 계산보다 메모리 읽기에 더 많은 시간이 들면서 대기시간이 길어진다. VRAM 한계는 동시 사용자 수를 제한하고, 기업 입장에선 동일한 비용으로 100개가 아닌 800개의 추론 스레드를 처리할 수 있느냐가 핵심 경제 문제로 떠오른다.

동적 메모리 희소화(DMS)란 무엇인가

DMS는 고정 규칙(예: 슬라이딩 윈도우)이나 느린 페이징이 아닌, 모델 자체가 향후 추론에 필수적인 토큰과 버려도 되는 토큰을 판별하도록 학습시킨다. 사전학습된 Llama 3나 Qwen 3에 레트로피팅 방식으로 적용하며, 주의(attention) 층의 일부 뉴런을 재활용해 토큰별 ‘보존/제거’ 신호를 출력한다. 전면 재학습이 필요 없고, 가중치 동결로 LoRA 유사 절차로 가볍게 진행해 약 1,000 스텝 만에 자체 압축형 모델로 전환할 수 있다.

DMS 핵심 메커니즘: 지연 제거(delayed eviction)

전통적 희소화는 비중요 토큰을 즉시 삭제해 중요한 맥락이 반영되기 전에 손실될 위험이 있다. DMS는 토큰을 ‘제거 예정’으로 표시하되 수백 스텝의 짧은 윈도우 동안 접근 가능하게 유지해, 모델이 필요한 정보를 추출·재분배한 뒤 KV 캐시에서 안전하게 제거하도록 한다. 이 완충 구간이 중간 중요도의 토큰에서 중복을 걷어내며 정확도를 지킨다.

DMS 레트로피팅: 가벼운 도입과 표준 스택 호환

동적 메모리 희소화(DMS)는 표준 커널로 동작해 기존 고성능 추론 스택에 바로 투입 가능하다. 가중치 동결로 변경 범위를 최소화하고, Qwen3-8B도 단일 DGX H100에서 수시간 내 적용 가능하다. 또한 KVPress 라이브러리로 배포되며, 커스텀 CUDA 없이 표준 Hugging Face 파이프라인 및 FlashAttention과 호환된다.

성능 검증: 파레토 프런티어를 이동

연구진은 Qwen-R1 시리즈(DeepSeek R1 디스틸), Llama 3.2 등 추론 모델에 DMS를 적용해 AIME 24(수학), GPQA Diamond(과학), LiveCodeBench(코딩)에서 평가했다. 동일한 메모리 대역폭 제약에서 Qwen-R1 32B+DMS는 AIME 24 점수가 기준 대비 12.0포인트 상승했으며, ‘건초더미 속 바늘’ 긴 문맥 검색에서도 표준 모델을 앞질렀다. 이는 수동 누적이 아닌 능동적 메모리 관리가 더 깔끔하고 유용한 컨텍스트를 유지함을 시사한다.

엔터프라이즈 효과: 처리량 5배, 지연 단축

KV 캐시가 작아지면 GPU의 메모리 페치 시간이 줄어 사용자 대기시간이 짧아진다. Qwen3-8B 테스트에서 DMS는 기준 정확도를 유지하며 처리량을 최대 5배 향상시켜, 동일 서버로 더 많은 질의를 품질 저하 없이 소화했다. 기업은 메모리 예산 내에서 추론 깊이를 키우고 동시성을 확장해 총소유비용을 낮출 수 있다.

실제 적용 예시

Hugging Face 파이프라인에서 DMS 시작하기

최소 구현 요건은 표준 Hugging Face 파이프라인이며, 동적 메모리 희소화(DMS)는 KVPress로 손쉽게 활성화된다. 추론 스크립트에서 DMS 정책 모듈을 연결하고, 목표 희소화율과 지연 제거 윈도우를 설정한 뒤 기존 체크포인트에 레트로피팅 가중치를 병합하면 된다.

KVPress와 기존 추론 스택 통합 포인트

FlashAttention과의 호환을 유지하면서 KV 캐시 모니터링을 활성화해 메모리 대역폭 예산을 관찰하라. 페이징 기반 오프로딩 대비 교환 오버헤드가 없으므로, 초저지연 실시간 애플리케이션에서 효과가 크다. 배치 크기와 토큰 생성 예산을 함께 조율해 스루풋을 극대화한다.

Qwen3-8B·Llama 3.2에서 메모리 예산 최적화

Qwen3-8B와 Llama 3.2에선 체인 오브 소트 길이와 희소화율을 함께 스윕해 정확도-처리량 균형점을 찾는다. DeepSeek 계열의 MLA(Multi-Head Latent Attention)와의 완전 호환이 확인되어, MLA의 구조적 이점과 DMS의 능동적 캐시 관리를 결합해 추가 효율을 기대할 수 있다.

미래 전망

메모리 관리는 AI 스택의 독립적이고 지능적인 계층으로 진화하고 있다. 동적 메모리 희소화(DMS)는 추론 시간 스케일링의 핵심 축으로서, 단순 챗봇을 넘어 장기 추론이 필요한 에이전트형 시스템으로의 전환을 경제적으로 뒷받침한다. 아직 가능한 것의 일부만 보여준 단계이며, 관련 기법은 계속 발전할 것이다.

이 기사 공유하기