치열한 음성 AI 시장, OpenAI gpt‑realtime로 지시 이행·표현력 승부

치열한 음성 AI 시장, OpenAI gpt‑realtime로 지시 이행·표현력 승부

치열한 음성 AI 시장, OpenAI gpt‑realtime로 지시 이행·표현력 승부


기사 요약

  • OpenAI가 복잡한 지시 이행과 자연스러운 발화를 내세운 음성 AI 모델 gpt-realtime을 공개하고 Realtime API를 일반 제공했다.
  • 모델은 실시간 통화·번역 등 기업용 시나리오에 맞춰 학습되었고 Big Bench Audio 82.8% 등 성능과 도구 호출, 다국어 전환을 강화했다.
  • MCP·이미지 인식·SIP 지원 등 API 업데이트와 20% 가격 인하로 도입 장벽을 낮췄지만 ElevenLabs 등과의 경쟁은 계속된다.

개요

OpenAI가 기업용 음성 AI 시장을 겨냥한 새 음성 모델 ‘gpt‑realtime’을 공개했다. 이 모델은 복잡한 지시를 더 정확히 따르고, 사람에 가까운 자연스러운·감정 표현이 가능한 목소리를 제공한다. 동시에 Realtime API를 일반 제공하며 Cedar, Marin 등 신규 보이스를 추가하고 기존 보이스를 최신 모델과 호환되도록 업데이트했다.

기업용 음성 AI 시장 경쟁 격화

고객 상담, 실시간 번역 등 활용처가 늘면서 현실감 있는 합성음성과 기업급 보안을 겸비한 솔루션 수요가 급증하고 있다. OpenAI는 gpt‑realtime으로 시장 공략에 나섰지만, ElevenLabs, SoundHound, Hume 등과의 경쟁이 치열하다. Mistral의 Voxtral, 구글의 NotebookLM 오디오 기능 등 멀티모달 LLM 진영도 가세하고 있다.

gpt‑realtime의 핵심: 지시 이행과 표현력

OpenAI는 고객사와 함께 실제 고객지원·학습지도 등 시나리오 기반 평가에 맞춰 모델을 정교하게 정렬했다고 밝혔다. 연구진에 따르면 gpt‑realtime은 “프랑스 억양으로 강세를 두며 말해” 같은 고난도 지시도 따르며, 문장 중간에 언어를 전환하는 등 자연스러운 대화를 구현한다. 개발자 워크플로와 잘 맞는 감정 풍부한 합성음성 생성도 강점으로 꼽았다.

스피치‑투‑스피치 아키텍처와 사용 사례

이 모델은 음성을 이해해 음성으로 응답하는 스피치‑투‑스피치 방식으로 동작해 실시간 상호작용에 적합하다. 예를 들어, 반품을 원하는 고객이 상담센터에 전화하면 사람과 대화하듯 응답하는 AI 보이스 에이전트가 문의를 처리할 수 있다. 라이브 데모에서 T‑Mobile은 새 휴대폰 찾기를 돕는 에이전트를, Zillow는 동네 추천을 통해 주거지 선택을 좁혀주는 에이전트를 선보였다.

성능 지표와 기능 호출 강화

Big Bench Audio 평가에서 정확도 82.8%를 기록해 이전 모델(65.6%) 대비 크게 향상됐다. 다만 경쟁 모델과의 비교 수치는 공개되지 않았다. MultiChallenge 오디오 벤치마크에서는 30.5%를 달성했다. 또한 함수 호출 기능을 보강해 필요한 도구에 더 정확히 접근하도록 개선했다.

Realtime API 업데이트와 통합 옵션

기업의 실시간 통합을 돕기 위해 Realtime API에 MCP 지원과 이미지 입력 인식 기능이 추가됐다. 이를 통해 모델은 카메라가 본 장면을 실시간으로 설명할 수 있다. 이 기능은 구글이 지난해 Project Astra에서 강조한 바 있다. 또한 SIP(Session Initiation Protocol) 연동을 지원해 공중 전화망이나 데스크폰과의 연결이 쉬워지면서 컨택센터 활용폭이 넓어진다. 프롬프트 저장·재사용 기능도 제공한다.

가격 인하와 도입 전망

초기 테스트에서 긍정적 반응이 이어지는 가운데, OpenAI는 gpt‑realtime의 가격을 20% 인하해 오디오 입력 토큰 백만 개당 32달러, 오디오 출력 토큰은 백만 개당 64달러로 책정했다. 가격 조정과 API 확장, 그리고 성능 향상을 통해 음성 AI 도입 장벽이 낮아질 것으로 보이지만, 시장 주도권 경쟁은 당분간 지속될 전망이다.