leangnews

2026년 02월 05일 09:02

미스트랄, 기기 내 동작 오픈소스 음성모델 ‘복스트랄 트랜스크라이브 2’ 공개

미스트랄, 기기 내 동작 오픈소스 음성모델 ‘복스트랄 트랜스크라이브 2’ 공개


기사 요약

  • 미스트랄 AI가 온디바이스로 작동하는 음성-텍스트 전환 모델 ‘복스트랄 트랜스크라이브 2’를 공개해 더 빠르고 정확하면서도 저렴한 전사 성능을 내세웠습니다.
  • 배치용 ‘Voxtral Mini Transcribe V2’와 실시간용 ‘Voxtral Realtime’을 제공하며, 13개 언어, 200ms 지연, Apache 2.0 공개 모델과 분당 $0.003·$0.006 API 요금을 특징으로 합니다.
  • 규제 산업을 겨냥한 프라이버시 중심 전략과 컨텍스트 바이어싱 등 엔터프라이즈 기능으로 오픈AI·구글 등과 경쟁하며, 2026년 ‘필기의 해’를 전망합니다.

복스트랄 트랜스크라이브 2 한눈에 보기

파리의 미스트랄 AI가 온디바이스로 완전히 구동되는 음성-텍스트 전사 모델 2종을 발표했습니다. 회사는 이 모델들이 더 빠르고 정확하며 저렴하게 오디오를 전사한다고 강조합니다. ‘복스트랄 트랜스크라이브 2’는 약 40억 파라미터 규모로 노트북, 스마트폰, 스마트워치 등 거의 모든 기기에 올릴 수 있을 만큼 가볍게 설계됐습니다. 엔터프라이즈 고객이 자동화 고객지원부터 실시간 번역까지 음성 AI를 핵심 기술로 보는 흐름 속에서, 원격 서버로 데이터를 보내지 않는 로컬 처리로 차별화를 꾀합니다.

복스트랄 트랜스크라이브 2: 배치·실시간 모델 구성

‘Voxtral Mini Transcribe V2’는 대량의 사전 녹음 파일을 처리하는 배치 전사용으로, 업계 최저 수준의 단어 오류율을 달성했다고 합니다. API 요금은 분당 $0.003로 주요 경쟁사의 5분의 1 수준이며, 영어·중국어(만다린)·일본어·아랍어·힌디어 등 13개 언어를 지원합니다. ‘Voxtral Realtime’은 라이브 음성을 최대 200ms까지 낮춘 지연으로 처리하며, 라이브 자막·보이스 에이전트·실시간 고객지원 보조 등 2초 지연도 허용되지 않는 응용에 초점을 맞춥니다. Realtime 모델은 Apache 2.0 오픈소스 라이선스로 배포돼 개발자가 허깅페이스에서 가중치를 내려 받아 수정·배포할 수 있고, API 요금은 분당 $0.006입니다. 미스트랄은 오픈소스 커뮤니티가 적용 영역을 넓혀 줄 것이라 기대하고 있습니다.

온디바이스 처리의 의미와 프라이버시

규제 산업에서 음성 데이터가 어디로 이동하는지는 도입을 가르는 결정적 요인입니다. 의료 상담, 금융 자문 통화, 법률 증언 등 민감한 워크플로에 AI를 넣을수록 데이터는 기기 안이나 자체 인프라에 머물러야 합니다. 미스트랄은 잡음 환경에서 노랫말이나 주변 대화를 잘못 받아 적거나, 소음에서 환각을 일으키는 문제를 줄이기 위해 학습 데이터 큐레이션과 아키텍처를 정교화했다고 설명합니다. 이러한 접근은 ‘복스트랄 트랜스크라이브 2’가 민감한 오디오를 원격 서버 전송 없이 처리하도록 해, 프라이버시와 데이터 주권을 강화합니다.

엔터프라이즈 기능: 컨텍스트 바이어싱과 화자 분리

컨텍스트 바이어싱은 의료 용어, 제품 고유명, 업계 약어 등 전문 용어 목록을 업로드하면 모호한 구간에서 해당 용어를 우선하는 기능입니다. 재학습이 필요한 파인튜닝과 달리, 간단한 API 매개변수와 텍스트 리스트만으로 작동하는 제로샷 접근입니다. 또한 타임스탬프 기준으로 누가 무엇을 말했는지 식별하는 화자 분리(다이어리제이션)를 지원해, 시끄러운 현장에서도 ‘이 분야 사람들만 정확히 아는’ 기술 용어까지 견고하게 전사하도록 설계됐습니다. 이 같은 엔터프라이즈 중심 기능은 ‘복스트랄 트랜스크라이브 2’의 핵심 차별점으로 제시됩니다.

산업 현장·콜센터 적용 시나리오

첫째, 제조 설비를 점검하는 감사 상황을 가정해 볼 수 있습니다. 공장 소음 속에서 전문가들이 외치는 관찰 내용을 실시간으로 받아 적고, 정확한 타임스탬프와 화자 식별을 제공해 보고서 작성의 품질과 속도를 끌어올립니다. 둘째, 고객센터에서는 ‘Voxtral Realtime’이 통화를 전사해 백엔드 시스템과 연동, 고객이 설명을 마치기 전 관련 기록과 상태를 불러와 상담원이 즉시 조치할 수 있게 합니다. 이로써 여러 번의 왕복 대화가 두 번의 상호작용으로 줄어드는 효과를 기대합니다.

실시간 통번역 로드맵과 경쟁 구도

미스트랄은 전사를 넘어 자연스러운 실시간 음성-음성 번역을 최종 목표로 보고 있으며, 공감을 위해서는 얼굴과 말이 어긋나지 않도록 지연을 최소화하는 것이 관건이라고 말합니다. 구글의 최신 번역 모델이 약 2초 지연인 반면, 미스트랄은 ‘Voxtral Realtime’로 200ms 설계 지연을 제시하며 애플·구글과 정면 경쟁에 들어갑니다. 낮은 지연과 고품질 전사는 차세대 실시간 통번역의 토대가 됩니다.

유럽 중심의 프라이버시 전략과 신뢰

2023년 메타·구글 딥마인드 출신이 창업한 미스트랄은 20억 달러 이상을 조달해 약 136억 달러의 기업가치를 인정받았지만, 하이퍼스케일러 대비 제한된 연산 자원 속에서 효율성 중심 전략을 택했습니다. 비용 효율과 에지 임베딩 가능성, 투명성을 앞세운 프라이버시 퍼스트 접근은 미 테크 의존을 경계하는 유럽 고객에게 특히 호응을 얻고 있습니다. 프랑스 국방부는 미스트랄 모델을 프랑스 통제 인프라에 배포한다는 전제로 접근권을 부여하는 프레임워크 계약을 체결했습니다. 이러한 맥락에서 ‘복스트랄 트랜스크라이브 2’는 로컬 처리로 신뢰와 통제를 동시에 제공하는 선택지로 자리매김합니다.

성능·가격 경쟁력과 벤치마크

전사 시장은 오픈AI의 ‘Whisper’와 구글·아마존·마이크로소프트의 엔터프라이즈 서비스, 그리고 AssemblyAI·Deepgram 같은 전문 업체까지 치열한 경쟁 구도입니다. 미스트랄은 더 나은 정확도와 더 낮은 가격을 주장하며, 다국어 음성 벤치마크 FLEURS에서 오픈AI·구글 대비 경쟁적이거나 우월한 단어 오류율을 보였다고 강조합니다. 독립 검증은 시간이 필요하지만, CEO 아르튀르 멘슈는 중국 오픈소스 기술 역량이 미국 빅테크 CEO들에게 압박을 주고 있다며 ‘중국이 뒤처진다는 건 동화’라고 평가했습니다.

2026 ‘필기’의 해와 다음 단계

미스트랄은 2026년을 전사 신뢰가 완전히 확보되는 ‘필기의 해’로 전망합니다. 모델이 단 한 번의 치명적 실수도 허용되지 않을 만큼 신뢰를 얻어야 하며, 엔터프라이즈는 실제 성과를 검증하며 점진적으로 도입할 것입니다. 개발자는 오늘 오픈된 ‘Mistral Studio’의 오디오 플레이그라운드에서 자신의 파일로 ‘복스트랄 트랜스크라이브 2’를 시험해 볼 수 있습니다. 거대하고 먼 것보다 작고 가까운 것이 우위를 점할 수 있다는 가설 아래, 최종 승부는 벤치마크가 아니라 ‘우리가 기꺼이 귀를 맡길 모델’이 되느냐에 달려 있습니다.

이 기사 공유하기