DeepSeek-V3.1-Terminus 공개: 에이전트 성능 강화와 언어 혼용 개선

DeepSeek-V3.1-Terminus 공개: 에이전트 성능 강화와 언어 혼용 개선

DeepSeek-V3.1-Terminus 공개: 에이전트 성능 강화와 언어 혼용 개선


기사 요약

  • DeepSeek-V3.1-Terminus가 공개되어 도구 활용형(에이전트) 작업 성능을 크게 끌어올리고 영어 응답에 중국어가 섞이는 문제를 줄였다.
  • 두 가지 모드(딥씽크-챗·딥씽크-리저너), 128K 컨텍스트, 합리적 API 요금, MIT 라이선스 및 셀프 호스팅 지원이 핵심이다.
  • 툴 기반 벤치마크에서 유의미한 상승을 보였고, 순수 추론 과제는 소폭 개선에 그쳤으며 일부 코딩 지표(Codeforces)는 하락했다.

DeepSeek-V3.1-Terminus 출시: 무엇이 달라졌나

중국계 AI 스타트업 딥씽크가 새로운 대규모 언어 모델 업데이트인 DeepSeek-V3.1-Terminus를 발표했다. 해당 모델은 허깅페이스, 딥씽크 iOS·Android 앱, 딥씽크 API에서 즉시 이용 가능하며, AnyCoder(허깅페이스)와 NovitaLabs 서버리스 API 등 써드파티 오픈소스 도구에도 빠르게 추가되고 있다. 핵심 변화는 에이전트형 도구 활용(코딩·검색) 성능 강화와 영어 응답 내 중국어 단어가 끼어드는 문제의 완화다.

배경과 포지셔닝

Terminus의 계보와 DeepSeek V3/V3.1의 역할

DeepSeek-V3.1-Terminus는 2024년 12월에 데뷔한 DeepSeek V3 계열을 기반으로 하며, 2025년 1월 고성능 추론 지표로 주목받은 DeepSeek R1의 그늘에 잠시 가려졌었다. R1은 논리·수학·구조적 문제 해결에 강하지만 비용과 지연이 더 크다. 반면 V3 라인은 일반 비즈니스용 다목적 모델로, 작성·요약·고객 응대·기초 코딩·일반 추론에서 효율적이고 빠르며 운영비가 낮다. 2025년 8월 공개된 V3.1은 6,850억 매개변수 규모로 미·유럽의 상용 폐쇄형 모델을 맞먹거나 능가하는 지표를 보이면서도, 상업적 활용이 가능한 MIT 라이선스를 채택해 오픈소스 진영의 전력투구로 평가받았다.

사용자 피드백 기반 정교화

언어 일관성과 에이전트 도구 활용 강화(DeepSeek-V3.1-Terminus)

이번 릴리스는 언어 혼용 및 비정상 문자 출력 문제를 줄이는 데 초점을 맞췄다. 동시에 딥씽크의 작업 특화 프레임워크인 ‘코드 에이전트’와 ‘검색 에이전트’를 강화해, 웹 검색·정보 합성 및 코드 생성 시 모델을 더 정밀하게 초점화한다. 벤치마크 결과도 이를 뒷받침한다. 툴 사용 과제에서 SimpleQA 96.8(기존 93.4), BrowseComp 38.5(30.0), SWE Verified 68.4(66.0), SWE-bench Multilingual 57.8(54.5), Terminal-bench 36.7(31.3)로 개선됐다. 이는 실제 현업에서 외부 도구·시스템과 상호작용하는 작업의 견고함이 높아졌음을 시사한다.

순수 추론 과제의 결과와 한계

도구 없이 해결하는 순수 추론 과제에선 개선 폭이 제한적이다. GPQA-Diamond는 80.7(80.1), Humanity’s Last Exam은 21.7(15.9)로 소폭 상승했으나, 전반적 차이는 미미했다. 반면 코딩 실력을 보는 Codeforces는 2046(2091)로 소폭 하락이 관찰됐다.

모드, 컨텍스트 길이, 출력 한도

두 가지 운용 모드: deepseek-chat와 deepseek-reasoner

DeepSeek-V3.1-Terminus는 비(非)사고 모드인 deepseek-chat과 사고 모드인 deepseek-reasoner를 제공한다. 두 모드 모두 128,000 토큰 컨텍스트를 지원해 한 번의 입출력에서 약 300~400쪽 분량을 다룰 수 있다(참고: Grok 4 Fast 2M, Google Gemini 2.5 Pro 1M, OpenAI GPT-5 256K). chat 모드는 함수 호출, FIM(중간 채우기), JSON 출력에 대응하며, reasoner는 보다 깊은 문맥적 추론에 집중하고 함수 호출·FIM은 제공하지 않는다. 툴 사용 요청이 reasoner로 들어오면 자동으로 chat로 라우팅된다. 최대 출력 토큰은 chat 8,000(기본 4,000), reasoner 64,000(기본 32,000)이다.

요금과 거버넌스 고려

API 과금 구조와 기업을 위한 유의사항(DeepSeek V3.1 Terminus)

API 요금은 토큰 사용량 기반이며 캐시 히트/미스에 따라 입력 단가가 달라진다. 입력 100만 토큰(캐시 히트) 0.07달러, 입력 100만 토큰(캐시 미스) 0.56달러, 출력 100만 토큰 1.68달러다. 과금은 입력+출력 합산 기준이며, 충전된 잔액과 부여 잔액이 함께 있을 경우 부여 잔액이 우선 사용된다. 본사가 홍콩인 점을 감안하면 미·서방 기업은 API 채택 전 보안·규정 준수 관점의 실사를 권장한다. 대안으로, 허깅페이스에서 모델을 다운로드해 수정·커스터마이즈·자체 호스팅하면 보안·데이터 정책 우려를 줄일 수 있으나, 추론 인프라를 직접 구축·임대해야 한다. 한편 DeepSeek-V3.1-Terminus는 여전히 상업 친화적 MIT 라이선스를 유지한다.

배포와 기술적 주의

셀프 호스팅 가이드와 알려진 이슈(Terminus)

모델 아키텍처는 DeepSeek V3.1과 동일하며, 로컬 배포를 돕는 최신 추론 데모 코드가 저장소에 포함됐다. 현재 체크포인트에는 알려진 기술적 이슈가 하나 있다. self_attn.o_proj 파라미터가 아직 UE8M0 FP8 스케일 데이터 포맷을 완전히 준수하지 않으며, 후속 릴리스에서 수정될 예정이다.

전망

오픈소스 전략과 차기 로드맵(DeepSeek-V3.1-Terminus)

DeepSeek-V3.1-Terminus는 커뮤니티 피드백을 반영한 점진적 개선을 통해, 안정적이고 도구 통합형인 범용 LLM을 지향한다. 에이전트 성능 강화와 chat 모드 기능 확장은 개발자·연구자에게 실질적 이익을 제공할 전망이다. 딥씽크는 V3.1의 모멘텀을 바탕으로 기술 성취와 접근성의 경계를 시험하고 있으며, 오픈소스 전략은 여전히 차별화 요인으로 작동한다. 한편 커뮤니티에선 DeepSeek V4와 R1의 후속작 R2에 대한 기대가 높지만, 일각에선 V3 계열에 집중하는 행보를 두고 더 강력한 모델 학습에서의 난관 가능성도 제기한다(5월 공개된 DeepSeek R1-0528 및 이번 릴리스와 별개로).