알리바바 Qwen3-Omni, 텍스트·이미지·오디오·영상 아우르는 오픈소스 AI

알리바바 Qwen3-Omni, 텍스트·이미지·오디오·영상 아우르는 오픈소스 AI

알리바바 Qwen3-Omni, 텍스트·이미지·오디오·영상 아우르는 오픈소스 AI


기사 요약

  • 알리바바가 오픈소스 옴니모달 LLM Qwen3-Omni를 공개해 텍스트·이미지·오디오·영상 입력을 지원하고 텍스트·음성으로 응답합니다.
  • Thinker–Talker 아키텍처와 MoE, 저지연 스트리밍으로 실시간 상호작용을 구현하며 Instruct·Thinking·Captioner 세 가지 버전을 제공합니다.
  • Apache 2.0 라이선스, 경쟁력 있는 API 요금과 광범위한 벤치마크 우위로 엔터프라이즈 적용성을 강조합니다.

알리바바, 오픈소스 옴니모달 LLM Qwen3-Omni 공개

미국 빅테크가 데이터센터 투자 경쟁을 벌이는 가운데, 알리바바 클라우드가 오픈소스 옴니모달 LLM인 Qwen3-Omni를 선보였습니다. 이 모델은 텍스트·이미지·오디오·영상 입력을 한 번에 처리하고, 출력은 텍스트와 음성에 특화되어 실시간 상호작용에 강점을 보입니다. Apache 2.0 라이선스 아래 무료로 다운로드·수정·배포(상업적 활용 포함)가 가능해 기업 도입 장벽을 낮췄습니다.

모델 개요와 차별점

Qwen3-Omni는 입력에서 텍스트·이미지·오디오·영상을 모두 허용하며, 출력은 텍스트와 음성으로 제공합니다. OpenAI GPT-4o와 Google Gemini 2.5 Pro가 유사 범주의 기능을 제공하지만 비공개(유료)인 반면, 구글의 Gemma 3n은 오픈소스지만 텍스트 출력만 지원합니다. Qwen3-Omni는 초기에 모든 모달리티를 통합해 설계되어 지연을 최소화하고 응답의 일관성을 높인 점이 핵심 차별점입니다.

버전 구성(Qwen3-Omni-30B-A3B)

Instruct: Thinker+Talker를 결합해 오디오·비디오·텍스트 입력을 받고 텍스트·음성 출력을 모두 제공합니다. Thinking: 추론과 장문 연쇄 사고에 초점을 맞춘 텍스트 출력 전용 버전입니다. Captioner: 오디오 캡셔닝 특화 파인튜닝 버전으로, 환각을 줄인 정확한 텍스트 설명을 생성합니다. 개발자는 광범위한 상호작용, 심화 추론, 오디오 특화 중 요구에 맞게 선택할 수 있습니다.

아키텍처와 설계

핵심은 Thinker–Talker 이원 구조입니다. Thinker가 멀티모달 이해와 추론을 맡고, Talker가 자연스러운 음성 생성을 담당합니다. 두 구성요소 모두 Mixture-of-Experts(MoE)를 활용해 동시성 및 추론 속도를 높였습니다. Talker는 Thinker의 텍스트 표현에 직접 얽매이지 않고 음성·시각 특징에 조건화되어 번역 시 운율·음색을 유지하는 등 오디오-비디오 조화를 강화합니다. 또한 검색·안전 필터 같은 외부 모듈이 Talker 음성 렌더링 전에 개입할 수 있어 안전성과 제어성이 향상됩니다.

주요 섹션: Qwen3-Omni의 옴니모달 설계

다중 코드북 자기회귀 음성 합성과 경량 Code2Wav ConvNet을 결합해 지연을 낮추면서 음성 디테일을 보존합니다. 이 스트리밍 최적화로 오디오 최초 패킷까지 이론상 234ms, 비디오는 547ms를 달성했으며, 여러 동시 요청에서도 실시간 계수(RTF) 1 미만을 유지합니다. 텍스트 119개 언어, 음성 입력 19개, 음성 출력 10개 언어(광둥어 등 방언 포함)를 지원합니다.

컨텍스트와 한계

컨텍스트 길이: Thinking 65,536 토큰 / Non-Thinking 49,152 토큰. 최대 입력: 16,384 토큰. 최대 출력: 16,384 토큰. 최장 추론 연쇄: 32,768 토큰. 무료 쿼터: 활성화 후 90일간 모달리티 합산 100만 토큰.

가격(Alibaba API)

1,000토큰 단위 과금이며 Thinking/Non-Thinking 요금은 동일합니다(오디오 출력은 Non-Thinking 전용). 입력: 텍스트 $0.00025/1K, 오디오 $0.00221/1K, 이미지/비디오 $0.00046/1K. 출력: 텍스트(텍스트 입력만) $0.00096/1K, 텍스트(이미지/오디오 포함 입력) $0.00178/1K, 텍스트+오디오 $0.00876/1K(오디오는 과금, 텍스트는 무료).

학습 과정

오디오 인코더는 0.6B 파라미터의 Audio Transformer(AuT)로, 2,000만 시간 감독학습 오디오(중국어·영어 ASR 80%, 기타 언어 ASR 10%, 오디오 이해 10%)로 제로부터 학습되어 실시간 캐싱과 오프라인 처리를 모두 최적화했습니다. 사전학습 단계는 S1(인코더 정렬: LLM 고정 후 비전·오디오 인코더 단독 학습), S2(일반학습: 총 약 2T 토큰—텍스트 0.57T, 오디오 0.77T, 이미지 0.82T 등), S3(롱 컨텍스트: 최대 길이 8,192→32,768로 확장, 장시간 오디오·비디오 비중 강화)로 진행되었습니다. 사후학습은 Thinker에 대해 지도 미세조정, 강→약 지식증류, 규칙·LLM 채점 기반 GSPO 최적화를 수행했고, Talker는 수억 건의 멀티모달 음성 샘플과 선별 데이터의 지속 사전학습을 결합해 환각을 줄이고 음성 품질을 개선했습니다.

벤치마크 성능

총 36개 벤치마크 중 22개 SOTA, 오픈소스 기준 32개 선두를 기록했습니다. 텍스트·추론: AIME25 65.0(> GPT-4o 26.7), ZebraLogic 76.0(> Gemini 2.5 Flash 57.9), WritingBench 82.6(> GPT-4o 75.5). 음성·오디오: Wenetspeech 4.69/5.89 WER(> GPT-4o 15.30/32.27), Librispeech-other 2.48 WER(동급 최저), 음악 GTZAN 93.0, RUL-MuchoMusic 52.0. 이미지·비전: HallusionBench 59.7, MMMU_pro 57.0, MathVision_full 56.3. 비디오: MLVU 75.2(> Gemini 2.0 Flash 71.0, GPT-4o 64.6).

활용 분야

다국어 받아쓰기·번역, 오디오 캡셔닝, OCR, 음악 태깅, 비디오 이해 등 광범위한 시나리오에 적용됩니다. 예를 들어 고객 웹캠/휴대폰의 실시간 영상을 검토해 기기(프린터·냉장고·식기세척기 등)나 앱 문제 해결을 돕는 기술지원 에이전트를 구축할 수 있습니다. 시스템 프롬프트로 대화 스타일과 페르소나를 조정해 소비자용 비서, 엔터프라이즈 전사 시스템, 도메인 특화 분석 도구로 배치할 수 있습니다.

라이선스와 엔터프라이즈 영향

Qwen3-Omni는 Apache 2.0으로 공개되어 상업적 이용·수정·재배포가 자유롭고, 특허 라이선스를 포함해 통합 시 법적 리스크를 낮춥니다. 기업은 라이선스 비용·준수 부담 없이 제품·워크플로에 내재화하고, 산업별 규제·요건에 맞춘 파인튜닝과 커뮤니티 기여의 혜택을 동시에 누릴 수 있습니다.

향후 전망

Qwen3-Omni는 Thinker–Talker 설계, 대규모 학습 파이프라인, 오픈 라이선스를 결합해 실시간 상호작용과 접근성을 동시에 제공하며, 멀티모달 AI의 엔터프라이즈 채택을 가속화할 신호탄으로 평가됩니다.

실제 적용 예시

홈페이지 제작 전 필수 체크리스트

1) 목적 정의: 상담봇, 접근성 보조, 멀티모달 검색 등 목표와 KPI를 명확히 합니다. 2) 모델 선택: Instruct(대화·음성), Thinking(심화 추론), Captioner(오디오 캡션) 중 용도에 맞는 Qwen3-Omni 버전을 고릅니다. 3) 성능·지연 예산: 스트리밍 지연(오디오 234ms, 비디오 547ms)과 동시성 요구를 산정합니다. 4) 입력 파이프라인: 브라우저 오디오 캡처, 이미지/비디오 업로드, 텍스트 입력을 안전하게 처리합니다. 5) 안전·준법: 콘텐츠 필터·키워드 차단·로그 보관 정책을 설계하고 Talker 렌더링 전 안전 모듈 개입을 구성합니다. 6) 비용 통제: 토큰 크기 제한, 캐싱, 요금체계(입출력 단가) 기반의 예산 가이드를 마련합니다. 7) 개인정보 보호: 마스킹, 최소 수집, 지역 저장, 접근 제어를 적용합니다.

홈페이지 제작 프로세스 단계별 안내

1) 설계: 유즈케이스와 대화 흐름, 멀티모달 UX를 정의합니다. 2) 통합: Alibaba API 키 설정 후 스트리밍 엔드포인트를 연동하고, 텍스트·이미지·오디오·비디오 입력 처리를 구현합니다. 3) 응답 처리: 텍스트는 즉시 렌더링, 음성은 Talker 스트림을 재생하며 끊김 없는 UI를 구성합니다. 4) 후처리: 검색·지식베이스·안전 필터를 Thinker 출력 단계에 삽입합니다. 5) 최적화: 프롬프트·시스템 메시지 튜닝과 캐시 재사용으로 품질·비용을 균형화합니다. 6) 검증: 다국어·장문 컨텍스트·엣지 케이스 테스트를 수행합니다. 7) 운영: 모니터링·피드백 루프·버전 롤백 전략을 마련해 안정적으로 Qwen3-Omni 기반 서비스를 운영합니다.