leangnews

Command Palette
Search for a command to run...

2025년 12월 11일 11:02

미스트랄, Devstral 2와 노트북용 스몰 모델·Vibe CLI 공개

기사 요약

프랑스 AI 스타트업 미스트랄이 Devstral 2, 노트북에서도 오프라인 구동되는 Devstral Small 2, 터미널 에이전트 Vibe CLI를 공개했다.
Devstral 2는 123B·256K로 SWE-bench Verified 72.2%를 기록하고, 스몰은 24B로 68.0%를 달성해 단일 GPU나 CPU에서도 실행된다.
스몰은 Apache 2.0, Devstral 2는 월 매출 2천만 달러 초과 기업 제한의 수정 MIT로 배포되며, 무료 기간 후 API 요금은 입력/출력 $0.40/$2.00(Devstral 2), $0.10/$0.30(스몰)이다.

개요

미스트랄은 엔터프라이즈와 인디 개발자를 겨냥해 대규모 코드 생성 모델 Devstral 2와 경량형 Devstral Small 2, 그리고 터미널 네이티브 에이전트 Vibe CLI를 공개했다. 두 모델은 한시적으로 미스트랄 API와 허깅페이스에서 무료로 사용할 수 있으며, Devstral 2는 vLLM와 오픈소스 에이전트형 코딩 플랫폼 Kilo Code에서 즉시 지원된다. 이번 조합은 성능뿐 아니라 개발자 경험과 오픈 가중치 배포 방식에서의 선택지를 동시에 제시한다.

핵심 스펙과 성능

Devstral 2

Devstral 2는 123억이 아닌 1230억 파라미터의 조밀한 트랜스포머로, 256K 토큰 컨텍스트를 제공하며 에이전트형 소프트웨어 개발에 맞춰 설계됐다. 실사용 저장소를 대상으로 긴 문맥 작업을 평가하는 SWE-bench Verified에서 72.2%를 기록했다. 규모 대비 효율성을 강조하며 DeepSeek V3.2 대비 5배, Kimi K2 대비 8배 더 작지만 핵심 소프트웨어 추론 벤치마크에서는 대등하거나 우세하다고 밝혔다. 휴먼 평가에서도 DeepSeek V3.2와의 비교 과제에서 42.8% 승, 28.6% 패를 보였고, Anthropic Claude Sonnet 4.5와의 맞대결에서는 53.1% 열세로 아직 폐쇄형 최상위 모델과의 격차를 인정했다.

Devstral Small 2

24B 파라미터에 256K 컨텍스트를 갖춘 Devstral Small 2는 SWE-bench 68.0%로 동급 오픈 가중치 모델 가운데 최상위권 성능을 보인다. 단일 GPU 또는 충분한 사양의 노트북 CPU에서도 로컬로 추론 가능하며, FP4와 FP8 양자화를 지원해 지연 시간과 메모리 효율을 잡았다. 대형 Devstral 2 대비 수치상 4포인트 낮지만, 실제 현업에서는 작업 규모와 에이전트 구성에 따라 체감 차이가 커질 수 있다.

Vibe CLI: 터미널 네이티브 개발 에이전트

Vibe CLI는 IDE 플러그인이나 단순 채팅형 설명기가 아니라, 개발자의 쉘 워크플로 안에서 프로젝트 전반을 이해하고 조율하도록 설계된 커맨드라인 인터페이스다. 프로젝트 트리와 Git 상태를 읽어 범위를 파악하고, @로 파일 참조, !로 셸 명령 실행, 슬래시 명령으로 동작 전환을 제공한다. 여러 파일에 걸친 변경 오케스트레이션, 의존성 추적, 실패 재시도, 아키텍처 수준의 리팩터링까지 수행하며, 프로그래머블하고 스크립트화 및 테마 적용이 가능하다. 라이선스는 Apache 2.0으로, 상업 환경과 내부 도구, 오픈소스 확장 모두에 제약 없이 쓸 수 있다.

라이선스 구조와 과금

오픈 가중치, 그러나 사용자에 따른 조건 차등

Devstral Small 2는 엔터프라이즈 친화적 Apache 2.0으로 제공돼 수익 제한이나 재배포 제약 없이 제품 내 임베딩과 파인튜닝 배포가 가능하다. 반면 Devstral 2는 이른바 수정 MIT 라이선스로 공개되며, 월 통합 매출 2천만 달러를 초과하는 기업은 별도 상업 라이선스를 취득하지 않으면 사용할 수 없다. 이 제한은 파생물과 파인튜닝, 재배포된 변형까지 적용된다. 즉 가중치는 공개됐지만 대기업 사용에는 관문이 존재하며, 대안으로는 미터 요금제의 호스티드 API 이용이 제시된다. 흔히 Apache 2.0을 공공 도서관에, 수정 MIT를 프리랜서에겐 무료지만 규모가 커지면 요금을 부과하는 코워킹 스페이스에 비유할 수 있다.

배포 요건과 API 가격

Devstral 2는 최소 H100급 GPU 4장 이상이 권장되며, NVIDIA의 build.nvidia.com에서도 제공된다. Devstral Small 2는 단일 GPU 또는 표준 노트북 CPU에서도 실행 가능하다. 두 모델 모두 vLLM과 호환되고, 파인튜닝을 기본 지원한다. 무료 체험 이후 API 가격은 토큰 기반으로 Devstral 2 입력 백만 토큰당 0.40달러, 출력은 2.00달러이며, Devstral Small 2는 입력 0.10달러, 출력 0.30달러다. 가격대는 OpenAI GPT-4 Turbo보다 약간 낮고, 유사 성능 구간의 Anthropic Claude Sonnet보다 낮게 책정됐다.

엔터프라이즈 적용 포인트

대기업은 라이선스 제약으로 Devstral 2 도입 전에 검토가 필요하다. 이때 Devstral Small 2는 Apache 2.0의 법적 명확성, 준수 가능한 성능, 단일 GPU나 오프라인 환경 배포 용이성 덕분에 내부 도구, 온프레미스, 엣지 저지연 추론에 실용적 대안이 될 수 있다. 다만 대규모 에이전트 구성, 대형 모노레포 리팩터링, 초장문맥 분석 등에서는 Devstral 2와의 체감 격차가 커질 수 있어, 스몰 모델은 프로토타이핑 또는 본격 전환 전 가교 역할에 적합하다. 완전 오프라인 추론과 데이터 주권이 중요한 금융, 의료, 국방, 제조 같은 환경에서는 로컬 우선 접근의 이점이 특히 두드러진다.

개발자 반응

X에서 개발자들은 신속히 호응을 보였다. 허깅페이스 프로덕트 총괄 빅터 무스타르는 Apache 2.0 기반 스몰 변형을 새로운 로컬 코딩 킹이 될지 묻기도 했고, 일부 계정은 SOTTA(State Of The Tiny Art)라 평했다. 한편 일각에서는 Devstral 2의 수정 MIT 표기를 사실상 독점 라이선스에 가깝다고 비판하며 오픈 사용 관행과의 차이를 지적했다.

맥락과 전략적 의미

미스트랄은 2024년 5월 첫 코드 특화 LLM인 Codestral(22B, 비상업 라이선스)로 출발해 HumanEval과 RepoBench 등에서 CodeLlama 70B, Deepseek Coder 33B를 앞서는 수치를 보이며 가볍고 긴 컨텍스트 모델의 가능성을 입증했다. 이후 Apache 2.0으로 공개된 Devstral(24B)은 맥북이나 RTX 4090에서도 구동되는 휴대성과 SWE-bench Verified 실전 과제에서 일부 폐쇄형 모델을 앞선 성능으로 주목받았다. 2025년 12월 공개된 Mistral 3는 드론과 스마트폰부터 클라우드까지 아우르는 10종 오픈 가중치 포트폴리오로, MoE 기반 Mistral Large 3(활성 파라미터 41, 256K 컨텍스트)와 4GB VRAM에서도 동작하는 경량 Ministral 변형을 포함하며 모두 Apache 2.0으로 제공됐다. 공동 설립자 기욤 랑플은 다수의 작은 모델이 분산된 현장에서 과업별로 최적화돼 동작하는 분산 지능 비전을 제시하며, 대부분의 경우 작은 모델로 충분하다고 강조했다.

마무리

Devstral 2와 Devstral Small 2, Vibe CLI는 빠르고 가벼운 도구성을 제공하면서도 사용 조건에 따른 명확한 선택지를 제시한다. 개인 개발자와 스타트업, 오픈소스 유지관리자에겐 오늘 당장 자유롭게 실행할 수 있는 강력한 옵션이며, 대기업에겐 상업 라이선스 협의 또는 스몰 모델의 전략적 운용이 요구된다. 블랙박스형 SaaS가 대세인 시장에서 미스트랄의 오픈 가중치 제안은 여전히 신선하지만, 도입 전 라이선스 세부 조항을 꼼꼼히 확인할 필요가 있다.

최신기사

Ease Health, a16z서 4,100만 달러 유치…AI 네이티브 행동건강 운영체제 재정의

거래소 애그리게이터는 어떻게 암호화폐 인프라가 되었나: 사례와 시사점

알리바바 Qwen3.5-9B, OpenAI 120B 능가…오픈소스로 노트북에서도 구동

인튜잇, 40년 소상공인 데이터로 SaaSpocalypse 정면돌파

딥페이크보다 위험한 건 ‘속삭임’? 웨어러블 AI의 일상적 조작

AI의 '정렬 위장' 확산: 자율 에이전트 시대 보안 과제

과열된 AI와의 바이브 코딩: 구글 AI 스튜디오를 팀처럼 다루며 얻은 교훈

앤스로픽과 펜타곤 충돌: 기업에 필요한 상호운용성 전략

마이크로소프트 OPCD: 장문 시스템 프롬프트 제거해도 모델 성능 유지

기업의 MCP 도입 속도, 보안 통제보다 훨씬 빠르다