
기사 요약
- DeepSeek가 실험적 LLM DeepSeek V3.2-Exp를 공개, V3.1-Terminus와 비슷한 성능에 API 입력 100만 토큰당 0.028달러로 비용을 절반으로 인하.
DeepSeek V3.2-Exp: 장문맥에서도 비용을 절반으로 낮춘 실험적 LLM
DeepSeek가 공개한 DeepSeek V3.2-Exp는 전작 V3.1-Terminus와 동급 혹은 소폭 향상된 벤치마크를 보이면서도, API 기준 입력 100만 토큰당 0.028달러(캐시 적중 시)로 비용을 50% 낮췄다. 최대 128,000토큰 문맥에서도 비용 증가를 억제해 문서 단위 요약, 장기 대화, 코드 분석 같은 긴 입력 작업을 실용적으로 지원한다. 모델은 DeepSeek 1st-party API와 MIT 라이선스 기반의 오픈소스 형태로 Hugging Face와 GitHub에서 제공된다.
API 가격 인하와 비교
입력 캐시 적중은 0.028달러, 캐시 미스는 0.28달러, 출력은 0.42달러(모두 100만 토큰 기준)로, 이전 V3.1-Terminus의 0.07/0.56/1.68달러 대비 크게 낮아졌다. Terminus는 10월 15일까지 별도 API로 잠시 병행 제공되며 이후 지원이 중단된다. 경쟁 모델 대비로는 OpenAI GPT-5 Nano가 여전히 최저가를 유지하고, Google Gemini 2.5 Flash-Lite, Anthropic Claude Haiku 3.5, xAI Grok-4 Fast 등이 뒤를 잇는다.
새로운 스파스 어텐션 설계
핵심은 DeepSeek가 공개한 DSA(DeepSeek Sparse Attention)다. 기존의 조밀(dense) 자기어텐션은 토큰 수가 늘수록 연산과 메모리가 제곱으로 증가해 비용과 지연이 급격히 커진다. DSA는 라이트닝 인덱서를 통해 주목해야 할 토큰만 선별, 장문맥에서 토큰당 연산 부담을 줄이면서 응답 품질을 최대한 유지한다. 이를 통해 DeepSeek V3.2-Exp는 긴 컨텍스트 구간에서도 비용 곡선을 완만하게 만들어 실제 워크로드의 총 추론 비용을 현저히 낮춘다.
주요 포인트: DeepSeek V3.2-Exp
장문맥 대비 비용 절감, 응답 품질 유지, MIT 라이선스 공개, 그리고 엔터프라이즈 친화적 배포 경로 확장이 이 모델의 요점이다. 특히 대용량 문서 처리나 장기 대화 히스토리 관리에서 비용/성능 균형이 돋보인다.
사후 학습 및 강화학습 고도화
DeepSeek V3.2-Exp는 사후 학습에서 스페셜리스트 증류와 강화학습 2단계를 도입했다. 수학, 알고리즘 대회, 논리 추론, 에이전트 코딩, 에이전트 검색 등 분야별 전문가 모델을 동일 체크포인트에서 파생·강화 후, 생성 데이터를 최종 체크포인트로 증류한다. 이어 GRPO(Group Relative Policy Optimization)를 활용해 추론·에이전트·휴먼 얼라인먼트를 단일 RL 단계로 통합, 멀티스테이지 파이프라인의 망각 문제를 줄이면서 도메인 간 균형을 맞춘다. 규칙 기반 보상, 길이 패널티, 언어 일관성 점검, 과제별 루브릭을 반영한 생성 보상 모델을 혼합해 보상 설계를 정교화했다.
벤치마크와 비용-성능 트레이드오프
공개 벤치마크에서 V3.2-Exp는 V3.1-Terminus와 대체로 동급 성능을 보였다. MMLU-Pro 85.0, AIME 2025 89.3로 소폭 개선이 있었고, GPQA-Diamond는 80.7에서 79.9로 소폭 하락했다. 코딩/에이전트 영역에선 Codeforces 2046→2121, BrowseComp 38.5→40.1로 개선됐다. DSA로 주목 토큰 일부만 선택하는 설계 덕에 긴 문맥 추론 시 100만 토큰당 비용이 이전 대비 절반 이하로 낮아지는 효과가 확인됐다.
오픈소스 접근과 배포 옵션
모델 가중치는 MIT 라이선스로 Hugging Face에 공개되어 연구·기업이 자유롭게 다운로드, 수정, 상업 배포할 수 있다. 연구용 TileLang 커널과 고성능 추론용 CUDA/FlashMLA 커널이 함께 제공된다. SGLang을 개발한 LMSYS Org가 스파스 어텐션 최적화 커널, 동적 KV 캐싱, 128k 토큰 스케일링을 공식 지원하며, vLLM도 데이원 지원을 제공한다. 로컬 배포를 위해 데모 코드와 Docker 이미지를 제공하며 NVIDIA H200, AMD MI350, NPU에 대응한다. 파라미터 수는 685B이며 BF16, FP8, FP32 텐서 타입을 지원한다.
엔터프라이즈 의사결정 고려사항
호스티드 API는 즉시 접근성과 예측 가능한 비용/스케일을 제공하지만, 홍콩 기반 사업자의 서버를 거치는 만큼 민감 데이터·규제 산업은 컴플라이언스 검토가 필요하다. 자체 호스팅은 데이터 거주·지연 제어에 유리하나 GPU와 엔지니어링 리소스가 요구된다. 기존 벤더 종속을 완화하는 포트폴리오 다변화 관점에선 장점이 있으나, 중국계 모델 도입에 따른 거버넌스 이슈를 병행 검토해야 한다. 대량·지속 워크로드는 장기적으로 자체 호스팅이 비용 우위를 가질 수 있으나, DeepSeek V3.2-Exp의 구조상 장문맥 입력에서는 온프레미스에서도 비용 이점이 유지될 가능성이 크다.
향후 로드맵
DeepSeek는 실험적 구조를 실제 환경에서 검증 중이며, 결과에 따라 차기 V3.3 혹은 V4의 기반이 될 수 있다. 공개 생태계(SGLang, vLLM)와 MIT 라이선스 유지로 연구·기업 활용 폭을 넓히면서, DeepSeek V3.2-Exp를 통해 비용·배포 현실 과제를 동시에 공략한다.
실제 적용 예시
홈페이지 제작 전 필수 체크리스트
대상 고객·경쟁사 자료·기존 브랜드 에셋·제품 문서 등 수백 페이지 분량을 단일 프롬프트로 제공하고, DeepSeek V3.2-Exp의 장문맥 요약으로 핵심 요구사항을 추출한다. 반복 참조되는 입력은 캐싱해 비용을 최소화하고, 개인정보·규제 문서는 자체 호스팅으로 처리해 컴플라이언스 리스크를 완화한다. 정보 구조, 톤&매너 가이드, 초기 카피 초안, 코드 보일러플레이트를 일괄 생성해 제작 전 범위를 명확히 한다.
홈페이지 제작 프로세스 단계별 안내
1) 디스커버리: 리서치 문서를 통합해 페르소나·핵심 메시지를 정리. 2) IA·카피: 섹션별 헤딩·카피를 생성하고 A/B 대안을 도출. 3) 컴포넌트 코딩: 디자인 토큰과 UI 패턴을 기준으로 React/Vue 스니펫을 생성. 4) 품질 점검: 접근성·SEO 체크리스트를 기준으로 자동 리뷰. 5) 배포·운영: 릴리스 노트와 이슈 우선순위를 정리. 긴 이력과 자산을 한 번에 다룰 때도 스파스 어텐션 덕분에 비용이 급증하지 않으며, DeepSeek V3.2-Exp의 캐시 전략을 활용하면 반복 작업 비용을 추가로 절감할 수 있다.