바이두, ERNIE-4.5-21B-A3B-Thinking 공개: Apache 2.0과 고효율 추론

바이두, ERNIE-4.5-21B-A3B-Thinking 공개: Apache 2.0과 고효율 추론

바이두, ERNIE-4.5-21B-A3B-Thinking 공개: Apache 2.0과 고효율 추론


기사 요약

  • 바이두가 ERNIE-4.5-21B-A3B-Thinking을 Apache 2.0으로 공개해 기업용 상업 배포가 가능해졌다.
  • 총 210억 매개변수 중 토큰당 30억만 활성화하는 MoE로 효율적인 추론과 12.8만 토큰 컨텍스트를 제공한다.
  • 다양한 벤치마크와 도구호출·배포 생태계 지원은 강점이지만, 일부 다국어 QA 성능과 지정학적 리스크는 검토가 필요하다.

개요

중국 검색기업 바이두가 ERNIE 4.5 계열의 새로운 대규모 언어모델 ERNIE-4.5-21B-A3B-Thinking을 공개했다. 최고 성능의 미국 모델들(OpenAI GPT-5, Google Gemini 2.5 Pro, Anthropic Claude Opus 4) 대비 벤치마크 점수는 낮지만, 토큰당 30억/총 210억 매개변수만 활성화하는 효율적인 추론과 오픈소스 공개라는 장점으로, 비용에 민감하거나 소유권·맞춤화 요구가 있는 조직에 매력적인 선택지다.

이 모델은 고급 추론, 도구 사용, 장문 맥락 처리에 최적화됐으며, 논리 추론·수학·과학·코드 생성 등 고난도 작업에서 이전 ERNIE 4.5 경량 모델 대비 유의미한 향상을 보이도록 사후 학습(지도 미세조정·추론 특화 강화학습)을 강화했다.

가벼운 모델로 무거운 작업

핵심 특성

ERNIE-4.5-21B-A3B-Thinking의 설계 포인트

ERNIE-4.5-21B-A3B-Thinking은 총 210억 매개변수 중 토큰마다 30억만 활성화하는 Mixture-of-Experts 접근을 통해 계산량을 줄인다. 컨텍스트 길이는 128,000 토큰으로, 한 번의 입출력 교환에서 300쪽가량의 정보를 다룰 수 있다(최신 GPT-5는 256,000까지 확대, 일부 연구실은 백만 토큰급 실험 중). 또한 구조화된 함수 호출을 포함한 도구 사용 능력이 강화되어, 외부 API와의 상호작용(예: 파라미터를 지정한 날씨 함수 호출)에 적합하다.

“Thinking” 버전의 의미

바이두는 본 릴리스를 “thinking”으로 표시해, 빠른 추론·간단 작업 우선의 비(非) thinking 버전과 구분했다. 단계별 논리 전개가 필수적인 수학·과학·R&D 문제, 체계적 추론이 요구되는 업무에서 사용을 권장한다.

성능과 벤치마크

추론·코딩·학술 과제에서의 지표

ZebraLogic 89.8, BBH(Big-Bench Hard) 87.77, WritingBench 86.5를 기록해 다단계 논리 처리와 구조적 사고에서 준수한 성능을 보였다. 프로그래밍 벤치마크 HumanEval+와 MBPP에서는 각각 90+와 80+로 코드 합성·함수 생성 역량을 입증했다. 수학(AIME2025)·과학 QA(BFCL, MUSR)에선 Gemini 2.5 Pro에 소폭 뒤처지지만 경쟁력을 유지하며, WritingBench와 IF-Eval에선 선도적인 결과를 보였다. 한편 ChineseSimpleQA 49.06으로 일반 다국어 QA에선 성능 절충이 관찰된다.

라이선스와 배포 생태계

오픈소스와 기업 적합성

이 모델은 Apache 2.0 라이선스로 허가되어 연구·상업 용도 모두 자유롭게 사용할 수 있다. Hugging Face와 GitHub에 공개되었고, 다음 프레임워크를 통한 배포를 지원한다: FastDeploy(2.2+ 버전, 80GB GPU 1장으로 기동 가능), vLLM(추론 특화 파서 개발 진행 중), Transformers 4.54.0+(토크나이저·생성 파이프라인 완전 지원). 모델카드, 기술 문서, 인용 가이드와 개발 툴킷용 GitHub 리포지터리도 제공된다. 또한 Hugging Face의 AnyCoder 애플리케이션과 연동되어 실사용 워크플로에 쉽게 접목할 수 있다.

배포·인터페이스 옵션

추론은 REST API 또는 파이썬 기반 생성 파이프라인을 통해 사용할 수 있으며, 구조화된 출력 생성을 위한 함수 호출도 지원한다. 이를 통해 멀티턴 논리 체인, 장문 문서 분석, 도구 오케스트레이션 등 엔터프라이즈 시나리오에 바로 적용 가능하다.

아키텍처와 최적화

MoE 라우팅과 모듈성

트랜스포머 기반 구조 위에 텍스트 전문가 64개와 비전 전문가 64개를 두고, 토큰당 각각 6개씩 활성화한다. 효율적 전문화의 MoE 라우팅과 조밀한 어텐션 계층을 통해 멀티모달 시스템과의 상호작용을 지원한다. 해당 변형은 텍스트 전용이지만 ERNIE 4.5의 모듈형 설계를 계승해 비전 모듈을 교체·제거하여 언어 전용 배포를 최적화할 수 있다.

학습·추론 최적화

PaddlePaddle 프레임워크로 FP8 혼합정밀 학습과 추론 친화적 양자화를 적용했다. ERNIE 4.5 계열은 비교적 낮은 하드웨어 요구에서 고처리량 추론이 가능하며, 최대 모델 기준(다른 변형) 80GB GPU 4장과 4비트 양자화로 노드당 입력 56,000 TPS, 출력 18,000 TPS를 달성했다고 보고했다. 21B 모델 역시 동일한 엔지니어링 최적화의 혜택을 받는다.

커뮤니티 반응과 오픈 전략

X(구 트위터) 상의 연구자·개발자 반응은 대체로 긍정적이다. 일부 사용자는 토큰당 30억 활성 파라미터에 따른 빠른 추론과 비용 효율을 강조했고, 8비트 gguf 기준 초당 90토큰의 속도를 언급했다. 또 다른 사용자는 복잡 과제에서의 “파워하우스”라 평가했다. 바이두는 ERNIE 4.5를 오픈소스로 풀어 실험·개조·재배포를 장려하며, DeepSeek·Moonshot·Z.ai·알리바바 Qwen 등 중국 연구실과 보조를 맞춘다. 이는 종종 유료·독점 모델을 제공하는 미국 연구실 흐름과 대비된다.

엔터프라이즈 의사결정 가이드

적용 영역과 비용·성능 균형

ERNIE-4.5-21B-A3B-Thinking은 경량 아키텍처로 높은 추론 성능을 제공해 고객 지원 자동화, 내부 RAG, 장문 분석, 함수 호출 오케스트레이션 등에서 실용적이다. FastDeploy·Transformers·vLLM 호환성은 하이브리드 클라우드 파이프라인 통합과 세밀한 GPU 스케줄링에 유리하다.

모듈성·인프라 최적화

비전/텍스트 전문가를 분리 배포할 수 있어 데이터 구성에 맞춘 미세조정 또는 불필요 모듈 가지치기가 용이하다. 이는 메모리·연산 제약 하에서 처리량을 극대화하는 데 도움이 된다.

보안·컴플라이언스 고려

오픈소스(Apache 2.0)임에도 개발사가 중국의 대형 기술기업이라는 점에서 일부 지역·산업에선 공급망 투명성, 잠재적 의존성, 안보 규범 등의 심사가 제기될 수 있다. 국방·의료·금융 등 민감 산업이나 공공 부문 계약, 수출통제 이슈가 있는 조직은 정책 검토가 선행돼야 한다.

최종 판단

연구·프로토타입·내부 도구처럼 노출이 제한된 환경에선 비용 대비 성능이 뛰어난 대안이 될 수 있다. 반면 규제가 엄격한 상용 프로덕션에선 리스크 관리 정책을 확인한 뒤 도입하길 권장한다. 엔터프라이즈 팀은 ERNIE-4.5-21B-A3B-Thinking의 장점과 조직의 위험 수용도를 함께 저울질해야 한다.