leangnews

2025년 11월 13일 13:02

메타, 1,600+개 언어 인식 Omnilingual ASR 공개… 아파치 2.0으로 완전 오픈

메타, 1,600+개 언어 인식 Omnilingual ASR 공개… 아파치 2.0으로 완전 오픈


기사 요약

  • 메타가 1,600개 이상 언어를 기본 지원하고 5,400개 이상으로 확장 가능한 새 다국어 음성 인식 Omnilingual ASR를 공개했다.
  • 제로샷 인컨텍스트 학습으로 소수·멸종위기 언어도 예시 몇 개만으로 추론 시 전사할 수 있으며, 모델은 Apache 2.0·데이터셋은 CC BY 4.0으로 완전 공개됐다.
  • 대형 모델은 약 17GB VRAM으로 추론 가능하고 다수 언어에서 CER 10% 미만을 달성했으며, 기업은 상용 서비스에 자유롭게 통합할 수 있다.

메타, Omnilingual ASR 공개의 핵심

메타가 다국어 자동 음성 인식 시스템 Omnilingual ASR를 공개했다. 1,600개 이상 언어를 학습해 기본 지원하며, 제로샷 인컨텍스트 학습으로 예시 몇 개만 제공하면 추론 단계에서 수천 개의 추가 언어까지 전사가 가능하다. 공개 라이선스는 Apache 2.0으로, 제한적인 라마 라이선스가 아닌 완전한 오픈소스 형태라 연구자와 기업이 상업 용도까지 제약 없이 곧바로 적용할 수 있다. 함께 공개된 리소스에는 음성 인식 모델군, 70억 매개변수의 다국어 오디오 표현 모델, 그리고 350개 이상 소외 언어를 망라한 대규모 코퍼스가 포함된다.

설계와 기능

스피치-투-텍스트에 최적화

핵심은 음성을 텍스트로 변환하는 스피치-투-텍스트 기능이다. 음성 비서, 자막, 회의·구술 기록 디지털화, 접근성 향상 등 다양한 응용을 겨냥하며, 과거처럼 대규모 정답 레이블 데이터를 요구하지 않도록 제로샷 변형을 제공한다. 이 변형은 모델이 보지 못한 언어라도 오디오-텍스트 짝 예시 몇 개만으로 추가 발화를 정확히 전사할 수 있게 한다.

모델 패밀리와 아키텍처

Omnilingual ASR는 1,600+개 언어에서 430만 시간 이상의 오디오로 학습된 여러 계열의 모델을 포함한다. 자기지도 기반의 wav2vec 2.0(3억~70억 매개변수), 효율적인 CTC 기반 ASR, 음성 인코더와 트랜스포머 텍스트 디코더를 결합한 LLM-ASR, 그리고 추론 시 미학습 언어에 적응 가능한 LLM-ZeroShot ASR이 그것이다. 모든 모델은 인코더-디코더 구조를 따르며, 원시 오디오를 언어 중립 표현으로 바꾼 뒤 텍스트로 복원한다.

규모의 의미

OpenAI Whisper가 99개 언어를 지원하는 데 비해, 메타의 시스템은 기본 1,600+개 언어를 직접 지원하고 인컨텍스트 학습으로 5,400개+ 언어까지 일반화할 수 있다. 지원 언어의 78%에서 문자 오류율(CER) 10% 미만을 달성했으며, 그중 500개+ 언어는 어떤 ASR도 다룬 적 없던 최초 커버리지다. 이는 디지털 도구에서 배제되어 온 지역 공동체에 실질적인 접근성을 제공한다.

커뮤니티 중심 데이터셋 구축

이 규모를 위해 메타는 아프리카·아시아 등 현지 연구진 및 단체와 협력해 348개 저자원 언어, 3,350시간 분량의 Omnilingual ASR 코퍼스를 만들었다. African Next Voices, Mozilla Common Voice(OMSF 지원), Lanfrica/NaijaVoices 등이 참여했고, 현지 화자에게 보상을 제공했다. 데이터는 문화적으로 관련성 높은 개방형 프롬프트로 자연스러운 구어를 수집하고, 정립된 표기 체계와 단계별 품질 관리를 적용했다.

성능과 하드웨어 고려사항

최대 모델인 omniASR_LLM_7B는 추론에 약 17GB GPU 메모리를 요구해 고급 하드웨어 배포에 적합하다. 3억~10억 매개변수급 소형 모델은 저전력 장치에서도 실시간 전사를 제공한다. 벤치마크에 따르면 고·중자원 언어의 95%와 저자원 언어의 36%에서 CER 10% 미만을 달성했으며, 잡음 환경과 미지의 도메인에서도 파인튜닝 시 견고성을 보였다.

오픈 접근성과 개발 도구

모델·코드는 Apache 2.0, 데이터셋은 CC BY 4.0(Hugging Face)로 제공된다. PyPI 설치, 허깅페이스 데이터 통합, 미리 구성된 추론 파이프라인, 언어 코드 기반 조건부 추론 기능 등이 지원되며, API로 지원 언어 목록을 확인할 수 있다. 모든 리소스는 공개 즉시 사용 가능해 Omnilingual ASR의 실전 도입을 가속한다.

메타 2025 전략 맥락

이번 공개는 Llama 4가 2025년 4월 공개 후 미온적, 나아가 부정적 평가와 낮은 엔터프라이즈 채택을 겪은 뒤 나온 첫 대형 오픈소스 릴리스다. 이 여파로 마크 저커버그는 스케일 AI 공동창업자 알렉산더 왕을 최고 AI 책임자로 영입하고, 고액 보상으로 연구 인재를 대거 채용했다. 메타는 ‘개인 슈퍼지능’ 비전을 내세워 맞춤형 AI 가속기와 Arm 기반 추론 스택 등 인프라 투자를 확대하고, 유럽에서의 공개 학습 데이터 사용을 재개하며 글로벌 경쟁력 회복을 모색하고 있다. Omnilingual ASR는 이런 전략 전환 속에서 개방성, 재현성, 커뮤니티 확장을 앞세운 신뢰 회복 카드다.

실제 적용 예시

도입 전 필수 체크리스트

대상 언어·방언과 표기 체계 정의; 대표 도메인(콜센터, 교육, 공공 등) 수집; 최소 예시 쌍(오디오-텍스트) 준비 및 품질 검수; 개인정보·저작권 준수 계획 수립; 배포 환경(GPU 메모리, 지연, 비용) 산정; 품질 지표(CER, 단어 오류율, 지연)와 A/B 테스트 설계; 피드백 루프와 지속적 파인튜닝 전략 마련.

구축·배포 프로세스 단계별 안내

사전 평가(소형 모델로 베이스라인 산출) → 제로샷 세팅(언어별 예시 쌍 주입 및 프롬프트·언어 코드 조건화) → 파인튜닝(도메인별 소량 데이터로 적응) → 서빙 최적화(양자화·배치·스트리밍 I/O) → 품질/윤리 점검(현지 화자 검증·바이어스 모니터링) → 운영(모니터링·오류 분석·주기적 재학습) 순으로 진행한다.

엔터프라이즈에 주는 의미

멀티링구얼·다국적 시장을 겨냥한 기업은 폐쇄형 ASR API 의존 없이 1,600개+ 언어를 기본 지원하고 수천 개 언어로 확장 가능한 파이프라인을 자체 구축할 수 있다. Apache 2.0 덕분에 사내·상용 시스템에 자유롭게 통합·수정·재배포할 수 있으며, 총소유비용을 낮추고 현지 언어 규제 준수를 용이하게 한다. 결과적으로 Omnilingual ASR는 중앙집중형 서비스에서 커뮤니티 확장형 인프라로의 전환을 촉진한다.

리소스 바로가기

코드·모델: github.com/facebookresearch/omnilingual-asr / 데이터셋: huggingface.co/datasets/facebook/omnilingual-asr-corpus / 블로그: ai.meta.com/blog/omnilingual-asr

이 기사 공유하기