leangnews

2025년 11월 17일 10:02

바이두, GPT-5.1·제미니와 경쟁할 차세대 ‘ERNIE 5.0’ 공개

바이두, GPT-5.1·제미니와 경쟁할 차세대 ‘ERNIE 5.0’ 공개


기사 요약

  • 오픈AI의 GPT-5.1 발표 직후 바이두가 차세대 기초 모델 ERNIE 5.0과 글로벌 AI 제품 업그레이드를 공개했다.
  • ERNIE 5.0은 텍스트·이미지·오디오·영상 전 영역을 네이티브로 처리하는 옴니모달 모델로, 문서 이해·차트 추론 등에서 GPT-5-High와 Gemini 2.5 Pro를 능가했다는 내부 평가를 제시했다.
  • 바이두는 프리미엄 가격의 API와 오픈소스 대안(ERNIE-4.5-VL-28B-A3B-Thinking)을 병행하며 국제 시장 공략과 개발자 커뮤니케이션을 강화하고 있다.

바이두 ERNIE 5.0 개요

오픈AI가 GPT-5를 GPT-5.1로 업데이트한 직후, 바이두는 차세대 기초 모델 ERNIE 5.0을 공개하며 국제 엔터프라이즈 AI 시장에서의 존재감을 강화했다. 이 모델은 텍스트, 이미지, 오디오, 비디오를 단일 아키텍처에서 함께 입력·출력하는 네이티브 옴니모달 설계를 채택했으며, ERNIE Bot 웹과 큐안판(Qianfan) API를 통해서만 이용 가능한 독점 모델이다. 로빈 리 CEO는 “AI를 내재화하면 비용이 아닌 생산성의 원천이 된다”고 강조했다.

핵심 특성과 제품 구성

바이두는 사후 결합(post-hoc) 형태의 모달리티 융합이 아닌, 최초부터 모달리티를 통합한 접근이 기술적 차별점이라고 설명했다. 일반 프리뷰와 별도로 텍스트 집약 업무에 최적화된 Preview 1022도 함께 공개되어, 멀티모달 균형형과 텍스트 특화형 가운데 선택할 수 있다.

벤치마크: GPT-5·Gemini 2.5 Pro 대비 성능

공개 자료에 따르면, 멀티모달 추론·문서 이해·이미지 기반 질의응답에서 GPT-5-High 및 Google의 Gemini 2.5 Pro를 능가하거나 대등한 성능을 보였다. 시각 과제에서는 OCRBench, DocVQA, ChartQA 등에서 선도적 점수를 기록했고, 이미지 생성에서는 내부 GenEval 평가 기준으로 Google Veo3와 동급 혹은 우위를 보였다고 밝혔다. 오디오 과제(MM-AU, TUT2017)와 음성 질의응답에서도 경쟁력을 확인했으며, 지시 따르기·사실 질의응답·수학 추론 등 언어 과제 전반의 성능도 견조했다. Preview 1022는 영어권 최상위 모델과의 격차를 좁히고, 중국어에서는 우세하다는 내부 평을 내놨다. 다만 상세 수치와 원시 점수는 공개되지 않았고, 독립 검증은 아직 대기 중이다.

가격 전략과 포지셔닝

바이두는 ERNIE 5.0을 프리미엄 구간에 배치했다. Qianfan 기준 1천 토큰당 입력 $0.00085(¥0.006), 출력 $0.0034(¥0.024)로 책정되었으며, 이전 세대 ERNIE 4.5 Turbo 대비 고성능·고비용 모델로 구분된다. 미국 대안과 비교하면 중간 가격대로, GPT-5.1과 Gemini 2.5 Pro보다는 저렴하고, Claude Opus 4.1·Grok 4보다는 낮은 편이다. 이는 대량 저비용 모델과 복잡한 멀티모달 추론용 고성능 모델을 이원화하는 바이두의 상업 전략을 드러낸다.

글로벌 확장: 제품과 플랫폼

바이두는 모델 공개와 함께 국제 시장 공략을 병행한다. 범용 에이전트 GenFlow 3.0은 사용자 2천만 명을 돌파하고 메모리·멀티모달 태스크 처리를 강화했다. 자가 진화형 에이전트 Famou는 초대 기반 상용화를 시작했고, 노코드 빌더의 글로벌판 MeDo는 medo.dev에서 이용 가능하다. 문서·슬라이드·이미지·영상·팟캐스트를 지원하는 생산성 워크스페이스 Oreate는 전 세계 120만 명 이상이 쓰고 있다. 디지털 휴먼 플랫폼은 브라질 등 해외로 확대되었고, 중국 ‘더블 11’ 기간 라이브커머스 진행자의 83%가 이를 사용해 GMV 91% 증가에 기여했다고 밝혔다. 자율주행 로보택시 ‘아폴로 고(Apollo Go)’는 누적 1,700만 회 이상 운행, 22개 도시에서 무인 차량을 운영 중이다.

오픈소스 비전-언어 모델 공개

행사 이틀 전에는 Apache 2.0 라이선스의 ERNIE-4.5-VL-28B-A3B-Thinking을 오픈소스로 배포했다. 이 모델은 MoE 구조로 총 280억 파라미터 중 약 30억만 활성화해 추론 효율을 높였고, 단일 80GB GPU에서도 실행 가능하다. 차트 해석, 문서 이해, 비주얼 그라운딩, 동영상 시간 인식, ‘이미지로 사고하기(Thinking with Images)’ 등 기능을 내세웠으며 Transformers, vLLM, FastDeploy와 호환된다. 상업 이용 제약이 적어, 동급 폐쇄형 경쟁사에 압박을 줄 카드로 평가된다.

커뮤니티 피드백과 대응

출시 직후 평가자 Lisan al Gaib(@scaling01)는 SVG 생성 중 도구 호출이 반복되는 문제를 지적하며 혼합된 평가를 남겼다. 이에 바이두 개발자 지원 계정(@ErnieforDevs)은 특정 문법이 버그를 유발하는 것으로 파악했다며, 수정 작업과 함께 당분간 프롬프트 재구성을 권고했다. 국제 개발자 대상 커뮤니케이션을 강화하겠다는 의지도 드러났다.

실제 적용 예시

ERNIE 5.0 도입 전 필수 체크리스트

우선순위 업무 정의(문서 처리·차트 분석·멀티미디어 생성), 데이터 보안·규정 준수 검토, 예상 토큰 사용량 기반 비용 모델링, 일반 프리뷰와 Preview 1022의 적합성 비교, Qianfan API 한도·지연·가용성 점검.

배포 프로세스 단계별 안내

파일럿 벤치마크 설계 → 샌드박스 통합(도구 호출 정책 포함) → 멀티모달 파이프라인 구성(OCR·ChartQA·TTS 등) → 성능·비용 모니터링 → 운영 중 이슈 대응 및 프롬프트/시스템 프롬프트 관리.

전망

ERNIE 5.0은 구조화 문서 이해, 시각 차트 추론, 네이티브 멀티모달 통합에서 강점을 내세우며, 대형 폐쇄형 모델과 정면 승부를 예고한다. 제3자 검증이 남아 있지만, 프리미엄 API와 오픈소스 병행 전략은 기업과 개발자군 모두에 매력적인 선택지를 제공할 것으로 보인다.

이 기사 공유하기