leangnews
Command Palette
Search for a command to run...
2025년 11월 14일 12:03
바이두, 오픈소스 멀티모달 AI 공개…Gemini·GPT-5 능가 주장
기사 요약
- 바이두가 ERNIE-4.5-VL-28B-A3B-Thinking을 공개하며 문서·차트·시각 추론 벤치마크에서 Gemini 2.5 Pro와 GPT-5-High를 능가했다고 주장했다.
- 28B 파라미터 중 3B만 활성화하는 MoE로 단일 80GB GPU에서도 구동되며, Apache 2.0 라이선스로 상업적 활용이 자유롭다.
- 핵심 기능 ‘이미지로 사고(Thinking with Images)’와 강화된 비주얼 그라운딩을 내세우지만, 독립 검증과 안전성·인프라 요구사항은 여전히 과제다.
바이두, 경량·고성능 멀티모달 AI 공개
중국 최대 검색기업 바이두가 오픈소스 인공지능 모델 ‘ERNIE-4.5-VL-28B-A3B-Thinking’을 공개했다. 개발진은 이 모델이 문서 이해, 차트 분석, 시각 추론 등 여러 벤치마크에서 구글 Gemini 2.5 Pro와 오픈AI GPT-5-High를 앞선다고 주장한다. 멀티모달 AI 역량을 전면에 내세우면서도 필요한 연산 자원을 크게 줄였다는 점이 특징이다.
무엇이 다른가: 효율성과 ‘이미지로 사고’
주요 섹션: 멀티모달 AI 핵심 기능
이 모델은 280억(28B) 파라미터를 보유하지만 입력마다 30억(3B) 파라미터만 활성화하는 라우팅 기반 Mixture-of-Experts 구조로 효율을 극대화했다. 핵심 기능은 ‘이미지로 사고(Thinking with Images)’로, 고정 해상도 처리에 머물던 기존 접근을 넘어 이미지에 자유롭게 줌인·줌아웃하며 세부를 동적으로 탐색한다. 멀티모달 AI의 강점을 살려 복잡한 기술 도면 분석이나 제조 검수에서의 미세 결함 탐지처럼 넓은 맥락과 미세한 디테일을 동시에 다룰 수 있도록 설계됐다. 또한 더 정밀한 비주얼 그라운딩과 유연한 명령 실행을 지원해 로보틱스, 창고 자동화 등 객체의 위치 특정이 중요한 산업 현장 적용 가능성을 시사한다.
성능 주장과 오픈소스 라이선스
바이두는 문서·차트 이해 등에서 상위 모델을 능가했다고 밝히지만, 독립적 재현 검증은 아직 남아 있다. 모델은 Apache 2.0 라이선스로 공개되어 상업적 이용에 제약이 거의 없어 엔터프라이즈 채택 가속이 기대된다. 멀티모달 AI 도입을 저해해온 라이선스 리스크를 낮춘 점이 시장에서 긍정적으로 평가된다.
아키텍처와 학습 기법
Mixture-of-Experts로 3B 활성 파라미터
ERNIE-4.5-VL-28B-A3B-Thinking은 입력별로 가장 관련성 높은 전문가(익스퍼트)만 선택·활성화하는 라우팅 메커니즘을 사용한다. 그 결과 메모리와 연산 소모를 줄여 단일 80GB GPU에서도 구동 가능하다고 명시했다.
강화학습과 안정화: GSPO·IcePop·난이도 샘플링
기술 문서에 따르면 검증 가능한 과제에 최적화된 멀티모달 강화학습을 적용하고, MoE 학습 안정화를 위해 GSPO와 IcePop 전략을 통합했다. 여기에 동적 난이도 샘플링을 결합해 학습 효율을 높였다고 설명한다. 중간 학습(mid-training) 단계에서는 대규모·다양한 고품질 시각-언어 추론 데이터를 활용해 시각·텍스트 의미 정합을 강화했다.
에코시스템과 개발 도구
ERNIE 4.5 패밀리와 이질적 모달 구조
이번 모델은 2025년 6월 공개된 ERNIE 4.5 패밀리의 일부로, 424B 총 파라미터의 최상위 MoE부터 0.3B의 초소형 조밀(dense) 모델까지 10종으로 구성된다. 모달 간 파라미터 공유와 모달 전용 파라미터를 병행하는 이질적 모달리티 구조를 채택해 텍스트 성능 저하 없이 멀티모달 이해를 끌어올리는 것이 목표다. 자체 딥러닝 프레임워크 PaddlePaddle로 대형 언어모델 사전학습에서 MFU 47%를 달성했다고 밝혔다.
배포·통합: Transformers·vLLM·FastDeploy
엔터프라이즈 배포를 위해 ERNIEKit(산업용 학습·압축 툴킷)을 제공하고, Hugging Face Transformers, vLLM, FastDeploy와 호환된다. 약 30줄의 파이썬 코드로 로딩·실행 가능한 예제를 공개했으며, vLLM에서는 reasoning-parser와 tool-call-parser를 활용한 고처리량 추론을 지원한다. FastDeploy는 다양한 양자화 옵션으로 메모리 절감과 추론 속도 향상을 제공한다고 한다.
기업 관점의 의미와 활용처
실험적 챗봇을 넘어 문서 처리, 시각 데이터 분석, 복잡 워크플로 자동화로 시장이 전환되는 시점에, 경량·고성능 멀티모달 AI의 등장은 비용 대비 효과를 높인다. 단일 80GB GPU로의 배치 가능성은 중견기업과 스타트업에도 접근성을 제공한다.
대표 유즈케이스
송장·계약서·양식에서의 정보 추출과 표·차트 이해, 제조 라인의 결함 감지(정밀 그라운딩), 고객 지원에서의 단계적 시각 추론, 동영상의 시간 구간별 이벤트 식별 등에서 효용이 크다.
비용·접근성
멀티 GPU가 필요한 대형 모델 대비 초기 투자와 운영비를 낮출 수 있다. 오픈소스 Apache 2.0은 사용량 기반 요금이나 수익 공유가 없어 총소유비용(TCO) 절감에 기여한다.
주의사항과 한계
벤치마크 vs 현실
문서 이해에 강한 모델이 창의적 비전 과제나 실시간 영상 처리에서는 성능 편차를 보일 수 있다. 따라서 실제 업무 데이터셋 기반의 사내 평가가 필수다.
기술적 고려사항
MoE는 추론 효율이 높지만 라우팅과 익스퍼트 관리 때문에 배포 복잡도가 있다. ‘이미지로 사고’는 줌/검색 등 외부 이미지 도구와의 연계를 전제로 하므로 추가 인프라가 필요할 수 있다. 영상 처리의 경우 이미지 대비 연산 비용이 크며, 권장 최대 길이·프레임레이트 등 운영 파라미터가 문서에 명확히 제시되어 있지 않다. 컨텍스트 윈도우는 128K 토큰으로, 매우 긴 기술 매뉴얼이나 대용량 동영상 처리에는 제약이 생길 수 있다. 안전성 평가, 편향 완화, 실패 모드 공개도 향후 보완이 요구된다.
커뮤니티 반응과 향후 로드맵
개발자들은 GGUF, MNN 등 추가 포맷을 요청하며 모바일·로컬 배포 수요를 드러냈다. PaddleOCR와의 연계 여부를 묻는 피드백도 있었다. 모델명 길이에 대한 농담과 함께, 3B 활성 파라미터로 Gemini 2.5 Pro를 앞섰다는 주장에 놀랐다는 반응이 공존한다. 바이두는 11월 13일 Baidu World 2025에서 성능 검증과 로드맵을 추가 공개할 예정이다. 글로벌 시장 겨냥의 개방형 공개는 서구 빅테크와의 정면 경쟁 의지를 보여준다.
실제 적용 예시
홈페이지 제작 전 필수 체크리스트
멀티모달 AI를 활용해 기존 이미지·PDF에서 텍스트·표·차트를 자동 추출하고, 브랜드 가이드 위반(로고 비율, 색상 값, 해상도)을 시각 그라운딩으로 점검한다. ‘이미지로 사고’ 기능으로 디자인 시안의 미세 요소(패딩, 정렬, 픽셀 깨짐)를 줌인 검수하고, 경쟁사 레퍼런스 이미지를 도구 연동(이미지 검색)으로 수집·분류해 IA 설계에 반영한다.
홈페이지 제작 프로세스 단계별 안내
기획 단계에서 요구사항 문서·와이어프레임을 모델에 입력해 콘텐츠 맵과 컴포넌트 목록을 초안화한다. 디자인 단계에서는 컴포넌트 일관성, 접근성 위반(명도 대비, 대체 텍스트 누락)을 자동 검토한다. 퍼블리싱 단계에서는 스크린샷·동영상을 분석해 브라우저별 렌더링 차이를 탐지하고, 론칭 전 QA에서는 다국어 스크린샷의 오탈자·잘림 현상을 시각 추론으로 검출한다.
맺음말
ERNIE-4.5-VL-28B-A3B-Thinking은 효율 중심의 MoE와 ‘이미지로 사고’를 앞세운 멀티모달 AI로, 문서·차트·시각 추론 업무에 실용적 대안을 제시한다. 다만 독립 검증, 운영 복잡도, 안전성·거버넌스 보완이 병행되어야 실전 가치가 온전히 입증될 것이다.