leangnews

Command Palette
Search for a command to run...

2026년 01월 14일 11:02

DeepSeek Engram, 조건부 메모리로 GPU 낭비 줄이고 추론 향상

기사 요약

기업 LLM의 정적 정보 조회가 고가의 GPU 연산을 소모하는 문제를 DeepSeek의 조건부 메모리가 겨냥한다.
Engram 모듈은 정적 패턴 조회와 동적 추론을 분리해 75/25 용량 분할에서 추론 70→74%, 지식 57→61% 향상을 보였다.
입력 기반 사전 페치와 CPU 메모리 오프로딩으로 100B 임베딩도 3% 미만의 처리량 손실로 구동해 인프라 비용 구조를 바꿀 수 있다.

개요: 정적 조회에 낭비되는 GPU 사이클을 줄이는 조건부 메모리

기업 LLM은 상품명, 스펙, 표준 조항 같은 정적 정보를 찾기 위해 복잡한 추론용으로 설계된 GPU 연산을 매번 사용한다. 이 비효율은 대규모로 반복되어 비용을 키운다. DeepSeek는 Engram이라는 모듈을 통해 이러한 구조적 한계를 직접 겨냥했다. 핵심은 정적 패턴 조회를 동적 추론과 분리하는 조건부 메모리로, 신경망에서 ‘메모리’의 역할에 대한 통념을 흔드는 결과를 제시한다. 체계적 실험 끝에 희소 용량의 약 75%를 동적 추론, 25%를 정적 조회에 배분하는 구성이 최적임을 보고했으며, Big-Bench Hard, ARC-Challenge, MMLU에서 추론 성능이 더 크게 개선됐다.

에이전틱 메모리·RAG와 다른 점

Hindsight, MemOS, Memp 등 에이전틱(컨텍스트) 메모리는 대화 기록과 선호도 같은 에피소드 정보를 외부에 저장해 세션 간 문맥을 이어주는 역할을 한다. 반면 조건부 메모리는 모델의 순전파 내부에서 정적 언어 패턴을 효율적으로 처리하도록 설계된 내부 메커니즘이다. Vectorize의 Chris Latimer는 Engram의 접근이 “대화 기록/지식 저장소와의 연결 문제”가 아니라 “작은 모델의 성능을 짜내고 희소한 GPU 자원을 극대화하는 문제”를 푼다고 설명한다. 즉, 조건부 메모리는 변환기(Transformer)가 갖지 못한 ‘원시 지식 조회’ 능력을 보완해, 여러 층을 거쳐 비싸게 시뮬레이션하던 정적 패턴 재구성을 치환한다.

조건부 메모리 작동 원리

해시 기반 정적 패턴 조회

Engram은 2~3개 토큰 시퀀스를 해시해 거대한 임베딩 테이블에서 상수 시간(O(1))으로 조회한다. 예컨대 고유명사, 기술 용어, 상투적 구문 등은 본래 해시 테이블 조회로 충분한 정적 패턴에 가깝다. 기존 Transformer는 “Diana, Princess of Wales”를 인식하는 데도 다층 어텐션/FFN을 소모해 점진적으로 특징을 합성해야 했지만, 조건부 메모리는 이를 직접 조회로 대체한다.

컨텍스트 게이팅과 충돌 필터링

“Apple”처럼 의미 중의성이나 해시 충돌이 발생할 수 있어, Engram은 현재 문맥(이전 어텐션 층에서 축적된 표현)을 게이트로 사용한다. 문맥과 모순되면 억제하고, 부합하면 통과시킨다. 이렇게 조회된 정적 패턴은 필요한 경우에만 모델의 표현 흐름에 주입된다.

전략적 배치와 용량 분할의 법칙

모듈은 모든 층에 넣지 않는다. 지연을 최소화하면서 이득을 극대화하도록 선택적으로 배치한다. DeepSeek의 핵심 발견은 계산 75~80%, 메모리(조건부 메모리) 20~25%의 분할이 최적이라는 점이다. 100% 계산(MoE만) 구성은 정적 패턴을 깊이 재구성하느라 낭비가 크고, 반대로 메모리를 과도하게 늘리면 추론 용량이 줄어든다.

인프라 효율: GPU 메모리 우회와 호스트 메모리 활용

결정적 인덱스와 사전 페치

MoE 라우팅이 런타임 은닉 상태에 의존하는 것과 달리, Engram의 조회 인덱스는 입력 토큰 시퀀스에만 좌우되는 결정적 형태다. 덕분에 CPU 메모리에서 임베딩을 미리 가져오는 프리페치-오버랩이 가능하다. GPU가 앞선 트랜스포머 블록을 계산하는 동안, PCIe를 통해 다음 층에 필요한 조회 임베딩을 비동기로 적재해 통신 지연을 가린다.

대규모 임베딩 오프로딩과 성능

연구진은 100B 파라미터 규모의 임베딩 테이블 전체를 호스트 DRAM으로 오프로딩해도 처리량 손실을 3% 미만으로 억제함을 보였다. 이는 저장과 연산을 느슨하게 결합해, 비싸고 희소한 HBM 의존도를 낮추고 메모리 중심의 비용 구조로 전환할 가능성을 연다.

핵심 결과와 의미

조건부 메모리 시스템은 지식 회수보다 추론 능력에서 더 큰 이득을 보였다. 복잡 추론 벤치마크 정확도는 70%에서 74%로, 지식 중심 테스트는 57%에서 61%로 상승했다. 이 결과는 Big-Bench Hard, ARC-Challenge, MMLU에서 확인됐으며, 단순히 모델을 키우는 대신 아키텍처를 재설계하는 접근의 가치를 뒷받침한다.

엔터프라이즈 적용 시사점

하이브리드 아키텍처의 우위

희소 용량을 계산과 메모리(조건부 메모리)로 나누는 75/25 법칙은 순수 계산/순수 메모리 편향보다 일관되게 우수한 성능-비용 균형을 제시한다.

비용 초점의 이동

Engram 스타일의 오프로딩이 실전에서도 검증되면, 투자 축이 GPU에서 시스템 메모리로 이동할 수 있다. CPU 메모리에 100B+ 파라미터를 저장하고도 오버헤드가 작다면, 메모리 풍부·연산 중간형 구성이 순수 GPU 스케일업 대비 더 나은 비용 대비 성능을 낼 수 있다.

추론 향상의 함의

지식 회수 이상의 추론 향상은 조건부 메모리의 가치를 넓힌다. 대규모 도입 기업은 주요 모델 공급자가 이 원리를 내재화하는지 모니터링하고, 도메인·스케일 전반에서 75/25 법칙이 유지되는지 검증할 필요가 있다.

실제 적용 예시

사내 지식 조회 트래픽 최적화 체크리스트

1) 빈번한 고유명사·용어 사전을 토큰 n-그램(2~3)으로 추출 2) 해시 충돌률 목표치 설정 및 게이팅 임계값 튜닝 3) 초기 층 계산 시간을 활용한 PCIe 사전 페치 파이프라인 구성 4) 75/25 용량 분할에서 A/B 테스트로 업무 질의 정확도와 지연을 동시 최적화.

배치 가이드: 레이어별 Engram 삽입

초기~중간 블록에 조건부 메모리를 배치해 통신 지연을 은닉하고, 고층 블록은 동적 추론 집중으로 남긴다. 도메인별 충돌 다발 구간을 찾아 선택적 삽입 밀도를 조절하면, 처리량 저하 없이 정적 패턴 재구성 비용을 줄일 수 있다.

인프라 설계 포인트

호스트 DRAM 대역폭·PCIe 레이턴시·프리페치 큐 길이의 균형이 핵심이다. 결정적 인덱싱으로 조회 세트를 사전 계산해 캐싱 적중률을 올리고, 실패 시 저지연 폴백 경로를 둔다. 이렇게 하면 조건부 메모리의 장점을 최대화하면서도 SLO를 안정적으로 지킬 수 있다.

최신기사

Ease Health, a16z서 4,100만 달러 유치…AI 네이티브 행동건강 운영체제 재정의

거래소 애그리게이터는 어떻게 암호화폐 인프라가 되었나: 사례와 시사점

알리바바 Qwen3.5-9B, OpenAI 120B 능가…오픈소스로 노트북에서도 구동

인튜잇, 40년 소상공인 데이터로 SaaSpocalypse 정면돌파

딥페이크보다 위험한 건 ‘속삭임’? 웨어러블 AI의 일상적 조작

AI의 '정렬 위장' 확산: 자율 에이전트 시대 보안 과제

과열된 AI와의 바이브 코딩: 구글 AI 스튜디오를 팀처럼 다루며 얻은 교훈

앤스로픽과 펜타곤 충돌: 기업에 필요한 상호운용성 전략

마이크로소프트 OPCD: 장문 시스템 프롬프트 제거해도 모델 성능 유지

기업의 MCP 도입 속도, 보안 통제보다 훨씬 빠르다