leangnews

2025년 10월 23일 11:00

텍스트를 이미지로 10배 압축한 DeepSeek-OCR, 초장문 문맥의 상식을 뒤집다

텍스트를 이미지로 10배 압축한 DeepSeek-OCR, 초장문 문맥의 상식을 뒤집다


기사 요약

  • 딥시크가 오픈소스 DeepSeek-OCR을 공개해 텍스트를 시각 토큰으로 최대 10배 압축, LLM 입력 패러다임을 재정의했다.
  • Fox·OmniDocBench 등에서 100 비전 토큰으로 97%대 정확도와 높은 처리량을 입증, 단일 A100-40G로 하루 20만 페이지 처리 가능하다.
  • 1,000만~2,000만 토큰급 문맥 창 가능성을 여는 한편, 압축된 시각 토큰 위 추론 성능은 향후 검증 과제로 남았다.

개요

중국의 AI 연구사 딥시크가 공개한 DeepSeek-OCR은 텍스트를 이미지 기반 표현으로 바꿔 비전 토큰만으로 처리하며, 전통적 텍스트 토큰 대비 최대 10배 효율로 압축해 초장문 문맥 창 확장에 실마리를 제시한다. 연구진은 광학적 2D 매핑을 통한 장문 맥락 압축을 탐구했고, 압축비 10배 미만 구간에서 OCR 정확도 97%를 보고했다.

텍스트를 이미지로 압축하는 DeepSeek-OCR의 발상

핵심은 텍스트가 토큰 효율에서 우위라는 통념을 뒤집는 ‘시각 표현 우선’ 접근이다. 안드레이 카르파시는 “LLM의 모든 입력을 이미지로 처리하는 편이 합리적일 수 있다”고 평가하며, 순수 텍스트도 렌더링해 비전 경로로 넣는 방식을 제안했다. 이 접근은 서체·서식·레이아웃·삽화 같은 문서 맥락을 자연스럽게 보존하고, 양방향 어텐션을 기본으로 활용해 순차적(자기회귀) 처리의 제약을 줄일 수 있다는 점이 주목된다.

DeepEncoder와 MoE 디코더: DeepSeek-OCR 아키텍처

모델은 3억8천만 파라미터의 비전 인코더(DeepEncoder)와 30억 파라미터 규모의 Mixture-of-Experts 언어 디코더(활성 파라미터 5억7천만)로 구성된다. DeepEncoder는 Meta의 SAM으로 국소 시각 인지, OpenAI의 CLIP으로 전역 이해를 결합하고 16배 압축 모듈로 연결된다. 해상도 모드는 5종을 제공하며, ‘Tiny’(512×512, 64 비전 토큰)부터 복잡 문서에 대응하는 ‘Gundam’ 모드(타일형 n×640×640 로컬 뷰 + 1024×1024 글로벌 뷰)까지 상황별 압축·정밀 균형을 맞춘다.

성능과 벤치마크: 압축률·처리량의 현실적 임팩트

Fox 벤치마크에서 100 비전 토큰만으로 텍스트 700~800 토큰 분량 문서에 97.3% 정확도를 달성해 유효 압축비 약 7.5배를 보였다. 20배에 가까운 고압축에서도 정확도는 약 60% 수준을 유지했다. 생산성 면에서 단일 Nvidia A100-40G GPU로 하루 20만+ 페이지, 8GPU 서버 20대(총 160 A100-40G) 클러스터에선 일 3,300만 페이지 처리로 대규모 학습 데이터 구축에 유리하다. OmniDocBench에서는 페이지당 256 토큰을 쓰는 GOT-OCR2.0을 100 비전 토큰으로 능가했고, 페이지당 평균 6,000+ 토큰이 필요한 MinerU2.0도 800 미만 비전 토큰으로 앞질렀다.

초장문 문맥 창과 토크나이저 재고

이 방식은 수백만~수천만 토큰급 문맥 창을 현실화할 잠재력을 시사한다. 대화 히스토리를 해상도 단계별로 점진적 다운샘플링해 ‘기억 감쇠’를 구현, 핵심 정보를 유지하면서 토큰 사용을 줄이는 메모리 모델도 제안됐다. 동시에 기존 토크나이저가 지닌 유니코드·바이트 인코딩 복잡성, 보안·탈옥 이슈, 시각적으로 동일한 문자가 내부에선 다른 토큰으로 처리되는 문제를 시각 경로가 우회할 수 있다는 지적이 나왔다.

학습 데이터·인프라와 오픈소스 공개

모델은 약 100개 언어의 PDF 3천만 페이지(중·영 2천5백만)와 9종 문서 유형(학술논문, 재무보고서, 교과서, 신문, 필기 등)로 학습됐다. ‘OCR 2.0’ 데이터로 합성 차트 1천만, 화학식 500만, 기하 도형 100만을 추가했고, 일반 비전 과제 20%, 텍스트 전용 10%도 포함했다. 학습은 160×A100-40G로 파이프라인 병렬화해 비전 인코더 2단, 언어 모델 2단으로 나눴고, 멀티모달 기준 일 700억 토큰 처리 속도를 보고했다. 코드·가중치·추론 스크립트는 GitHub·Hugging Face에 전면 공개됐다.

경쟁 지형과 남은 질문

DeepSeek-OCR 공개로 대형 연구소의 유사 기법 보유 가능성에도 관심이 쏠린다. 구글 Gemini 계열의 대용량 문맥 창·OCR 성능이 이런 접근과 맞닿아 있을 수 있다는 관측이 있으며, Gemini 2.5 Pro는 100만 토큰(향후 200만 계획), OpenAI GPT-5는 40만, Anthropic Claude 4.5는 20만(일부 100만 베타)을 제공한다. 다만 압축된 시각 토큰 위에서 LLM이 텍스트 토큰만큼 정교하게 추론·서술할 수 있는지는 미확인으로, 연구진은 디지털·옵티컬 텍스트 혼합 사전학습, 니들-인-헤이스택 테스트 등 후속 검증을 예고했다. 한편 딥시크는 낮은 비용으로 경쟁적 성과를 내온 전례가 있으나, V3의 560만 달러 학습 비용 주장에는 총소유비용 관점의 이견도 존재한다. 요컨대, 텍스트를 텍스트로 볼 것인가 이미지로 볼 것인가는 이제 열린 질문이며, DeepSeek-OCR은 그 답을 향한 강력한 실험적 출발점이다.

이 기사 공유하기