2026년 01월 13일 11:01

Speechmatics·Sully.ai, 글로벌 의료 AI 인프라 확대 제휴 발표

기사 요약

Speechmatics와 Sully.ai가 NVIDIA 기반으로 자율형 의료 에이전트·스크라이브를 위한 전략적 파트너십을 발표했다.
초기 사례에서 21배 ROI, 의사 1인당 하루 2.4시간 절감, 환자 유지율 5% 이상 등 정량 성과를 입증했다.
160억 단어 의료 데이터로 학습된 음성 모델과 영어–아랍어 이중언어 지원을 바탕으로 중동 등 글로벌 의료 AI 인프라 확장을 예고했다.

개요: 글로벌 의료 AI 인프라 확장 제휴

CAMBRIDGE, 영국—(BUSINESS WIRE)—2026년 1월 12일—Speechmatics와 Sully.ai가 차세대 자율형 의료 에이전트와 임상 스크라이브를 위한 전략적 파트너십을 발표했다. 이 협력은 NVIDIA AI 인프라 위에 구축되었으며, 의료 등급 음성 모델과 자율 에이전트 워크플로를 결합해 실제 운영 업무를 처리하고 임상 현장에서 가시적인 ROI를 내는 AI 접수원과 임상 스크라이브를 제공한다. 이번 제휴는 전 세계적인 인력난과 급증하는 행정 비용 속에서 의료 AI 인프라를 확장하려는 움직임이다.

파트너십 배경과 지표(의료 AI 인프라 중심)

Sully는 단일의사 의원에서 1년이 채 되기 전에 500명 이상 제공자를 보유한 엔터프라이즈 고객으로 빠르게 확장했다. 북극성 지표인 Minutes Added to Workforce(MAW)로 에이전트형 AI가 의료 현장에서 창출하는 효율을 측정하며, 2025년 12월 기준 의료 현장에 3,000만 분 이상의 시간을 되돌려줬다. 현재 고객은 Oshi Health, Tebra, Midi 등이다. 초기 사례에서 자율형 운영 시스템은 협업하는 다수 에이전트의 시너지를 통해 21배 ROI를 기록했으며, 환자 유지율 5% 이상 개선, 의사 1인당 하루 2.4시간 이상 절감, 환자 예약 처리 용량 18.5% 증가가 일반적인 결과로 보고됐다. 이러한 추세는 대형 멀티사이트 네트워크로의 빠른 확장을 견인하고 있으며, 다양한 임상 환경에서 확장 가능한 고정확도 의료 등급 음성 모델, 즉 Speechmatics가 필요한 이유다.

모델 선택 이유: 임상 정확도와 실시간 성능

Sully.ai는 여러 음성 모델을 내부 평가한 끝에 Speechmatics를 선정했다. 평가는 임상 정확도, 모호한 의학 발음 처리, 소음 환경에서의 실시간 성능에 집중했다. Speechmatics의 영어 의료 모델은 2025년에 기준점을 세우며 실시간 일반 정확도 93%(단어 오류율 WER 7%), 의료 키워드 리콜 96%를 달성했고, 의료 키워드 오류율은 차순위 경쟁사 대비 50% 낮았다. 이는 수정 작업을 줄이고 이후 문서화 품질을 끌어올리며, 환자 접근과 임상 워크플로에서 더욱 신뢰할 수 있는 자동화를 뒷받침한다. Sully.ai의 창업자 겸 CEO 아흐메드 오마르는 “복잡한 의학 용어, 빠른 겹침 발화, 다양한 억양, 불완전한 오디오 등 실제 임상 환경에서 통하는 최고 수준의 음성 모델이 필요했다”며, “문제 많은 오디오에서도 약품명을 경쟁사보다 더 잘 처리했다”고 말했다.

의료 환경 특화 학습과 기능

이 모델들은 의료 대화, 임상 문서, 헬스케어 상호작용 등 160억 단어 이상으로 학습돼 다수 언어의 의료 테스트셋에서 경쟁사 대비 키워드 오류율을 5~20% 낮췄다. 소음 많은 응급실에서도 “hypertension”과 “hypotension”을 정확히 구분하고, 지역 억양의 의약품명을 이해하며, 의료진-환자 간 겹침 발화를 다루고, 의학 약어·약물 용량·ICD-10 코드를 해석한다. 그럼에도 지연은 1초 미만으로 유지하며 배치 수준에 가까운 정확도를 제공한다. Speechmatics의 CEO 케이티 위그달은 “고정확·저지연 음성 인식은 실제로 듣고 안전하게 작동하는 자율형 에이전트의 핵심”이라고 강조했다.

NVIDIA 기반 배포와 보안: 의료 AI 인프라 유연성

모델은 NVIDIA AI 인프라에서 구동되며, NVIDIA Triton Inference Server와 CUDA 라이브러리로 최적화돼 대규모 환경에서도 고처리량·저지연을 구현한다. 데이터센터, 프라이빗 클라우드, 엣지 등 어디서나 배포할 수 있고, 텔레헬스 플랫폼과 콘택트센터부터 EHR 연동 스크라이브와 병상 도구까지 신속한 커스터마이징과 수평 확장이 가능하다. 클라우드 전용 경쟁사와 달리 Speechmatics는 온프레미스, 프라이빗 클라우드, SaaS를 모두 지원해 데이터 주권, HIPAA 준수, 각종 규제 요구를 충족한다. 이 유연성은 최신 음성 기술을 활용하면서도 민감한 환자 데이터를 자사 인프라에 보관하려는 기업에 필수적이며, 견고한 의료 AI 인프라 구축을 돕는다.

글로벌 확장 계획: 영어–아랍어 이중언어와 코드스위칭

양사는 2026년 초 영어–아랍어 이중언어 모델 출시 이후 중동 등 신규 시장으로 의료 AI 인프라를 확대할 계획이다. 이 지역에서는 이중언어·코드스위칭 대화 지원이 음성 자동화의 핵심 요건이 될 전망이다. Speechmatics의 아랍어 기능은 현대 표준 아랍어뿐 아니라 이집트·걸프·레반트 방언 전반을 아우르도록 설계돼, 다양한 화자와 억양에서도 일관된 성능을 제공한다.

회사 소개

Speechmatics는 “모든 목소리를 이해한다”는 미션을 가진 보이스 AI 기업으로, 55개+ 언어에서 업계 최고 수준의 음성-텍스트 정확도를 제공한다. 의료 특화 모델은 160억 단어 이상의 임상 데이터를 기반으로 학습되었으며, 실시간 및 배치 전사 API는 헬스케어, 미디어, 콘택트센터, 보이스 에이전트 등 전 세계 고객(AI Media, Content Guru, boost.ai 등)에 활용되고 있다. 캠브리지(영국)에 본사를 두고 온프레미스·프라이빗 클라우드·SaaS 등 다양한 배포 옵션을 지원한다.

Sully.ai는 다의사 클리닉과 대규모 제공자 네트워크에서 미션 크리티컬 워크플로를 처리하는 자율형 AI 에이전트 제품군(보이스 AI 접수원부터 임상 스크라이브까지)을 제공한다. 실제 의료 환경의 복잡성을 전제로 설계된 에이전트 운영체제를 기반으로, 단일의사 의원에서 출발해 1년 이내 500+ 제공자를 보유한 엔터프라이즈로 확장했다.

최신기사

Ease Health, a16z서 4,100만 달러 유치…AI 네이티브 행동건강 운영체제 재정의

거래소 애그리게이터는 어떻게 암호화폐 인프라가 되었나: 사례와 시사점

알리바바 Qwen3.5-9B, OpenAI 120B 능가…오픈소스로 노트북에서도 구동

인튜잇, 40년 소상공인 데이터로 SaaSpocalypse 정면돌파

딥페이크보다 위험한 건 ‘속삭임’? 웨어러블 AI의 일상적 조작

AI의 '정렬 위장' 확산: 자율 에이전트 시대 보안 과제

과열된 AI와의 바이브 코딩: 구글 AI 스튜디오를 팀처럼 다루며 얻은 교훈

앤스로픽과 펜타곤 충돌: 기업에 필요한 상호운용성 전략

마이크로소프트 OPCD: 장문 시스템 프롬프트 제거해도 모델 성능 유지

기업의 MCP 도입 속도, 보안 통제보다 훨씬 빠르다