leangnews

2025년 10월 29일 09:00

MiniMax-M2, 오픈소스 LLM 새 강자: 에이전틱 도구 호출 최강

MiniMax-M2, 오픈소스 LLM 새 강자: 에이전틱 도구 호출 최강


기사 요약

  • 중국 스타트업 미니맥스의 MiniMax-M2가 MIT 라이선스로 공개되며 OpenAI·Anthropic API와 호환되고, Hugging Face·GitHub·ModelScope에서 이용 가능하다.
  • Artificial Analysis 평가에서 오픈웨이트 지능 지표 1위를 차지했고, τ²-Bench 77.2·BrowseComp 44.0·FinSearchComp 65.5로 에이전틱 과제에서 최상위 상용 모델에 근접했다.
  • 230B 파라미터의 MoE 구조에서 추론 시 10B만 활성화해 4대 H100(FP8)로도 서빙 가능하며, 입력 100만 토큰당 $0.30·출력 $1.20의 경쟁적 가격을 제시한다.

오픈소스 LLM 새 강자, MiniMax-M2 등장

DeepSeek와 Qwen을 위협하는 오픈소스 대형언어모델이 나왔다. 중국 스타트업 미니맥스의 최신 모델 MiniMax-M2는 기업 친화적 MIT 라이선스로 공개돼 자유로운 배포·재학습·상업적 활용이 가능하며, Hugging Face·GitHub·ModelScope와 MiniMax API를 통해 제공된다. OpenAI 및 Anthropic API 규격도 지원해 기존 고객이 손쉽게 이전할 수 있다.

기업 관점 핵심 포인트

지능 지표와 에이전틱 성능( MiniMax-M2 )

서드파티 벤치마크 기관 Artificial Analysis에 따르면, M2는 추론·코딩·작업 실행 성능을 종합한 Intelligence Index에서 전 세계 오픈웨이트 모델 중 1위를 기록했다. 에이전트 계획·실행·외부 도구 사용을 측정하는 지표에서도 τ²-Bench 77.2, BrowseComp 44.0, FinSearchComp-global 65.5를 기록해 GPT-5(Thinking), Claude Sonnet 4.5 등 최상위 상용 모델에 근접했다.

MoE 아키텍처와 효율( MiniMax-M2 )

2300억 파라미터의 희소 Mixture-of-Experts 구조에서 추론 시 100억만 활성화해 지연시간과 연산 부담을 크게 줄였다. 이 설계는 컴파일–실행–테스트, 브라우저 탐색–검색–인용 같은 에이전트 루프를 더 빠르고 예측 가능하게 만든다. FP8 정밀도 기준 NVIDIA H100 4대로도 효율적 서빙이 가능하다고 평가됐다.

엔드투엔드 개발·에이전트 워크플로

다중 파일 코드 편집, 자동 테스트, 회귀 수정까지 CI/CD 파이프라인 내에서 처리하도록 설계됐다. 웹 검색·명령 실행·API 호출을 결합한 에이전틱 플래닝에도 강하며, Terminal-Bench·BrowseComp에서 불완전 데이터에 적응하고 중간 오류에서 회복하는 능력을 보였다. LLM 엔지니어 피에르-카를 랑글레(알렉산더 도리아)는 “실제 에이전틱 자동화를 위한 엔드투엔드 기술 장악 사례”라고 평했다.

벤치마크 리더십

SWE-bench Verified 69.4(= GPT-5의 74.9에 근접), ArtifactsBench 66.8(Claude Sonnet 4.5·DeepSeek-V3.2 상회), τ²-Bench 77.2(= GPT-5의 80.1에 근접), GAIA(text) 75.7(DeepSeek-V3.2 상회), BrowseComp 44.0(오픈 모델 중 두드러짐), FinSearchComp-global 65.5(오픈웨이트 최고) 등 폭넓은 작업에서 상위권을 기록했다.

Artificial Analysis Intelligence Index v3.0에서 61점을 받으며 전 세계 오픈웨이트 최고 수준으로, GPT-5(high), Grok 4 바로 뒤를 이었다. 분야 전반에서 기술 정확성·추론 깊이·실용 지능의 균형을 보인 점이 강조됐다.

사고 흔적과 구조화된 도구 호출

Interleaved thinking과 추론 가시성

대화 이력에 <think>...</think> 형식의 추론 흔적을 남겨 다중 턴에서 계획과 검증을 이어간다. MiniMax는 대화 전달 시 이 구간을 보존해 일관된 논리를 유지할 것을 권고한다.

XML 스타일 함수 호출과 에이전트 프레임워크

Hugging Face의 Tool Calling Guide를 통해 외부 도구·API와 XML 유사 구조로 연결할 수 있다. 이를 통해 모델이 검색·검색결과 회수·계산 등 외부 함수를 호출하며 대형 에이전트 프레임워크의 추론 코어로 동작한다.

오픈소스 접근성과 배포 옵션

오픈 플랫폼과 호환성( MiniMax-M2 API )

MiniMax Open Platform API와 MiniMax Agent(웹 챗)에서 일정 기간 무료로 이용 가능하다. OpenAI·Anthropic 규격 호환으로 기존 시스템 교체가 용이하다.

서빙 스택과 가이드

SGLang·vLLM을 권장하며, 모델의 인터리브드 추론·도구 호출 구조를 즉시 지원한다. 배포 가이드와 파라미터 설정은 공식 문서로 제공된다.

비용 구조와 토큰 경제성

API 가격은 입력 100만 토큰당 $0.30, 출력 100만 토큰당 $1.20로 오픈모델 생태계에서 최상위 수준의 경쟁력을 보인다. OpenAI GPT-5, GPT-5 mini, Anthropic Claude Sonnet 4.5, Google Gemini 2.5 Flash, xAI Grok-4 Fast, DeepSeek-V3.2, Qwen qwen-flash, Cohere Command R+ 등과 비교해 합리적이며, 공급사에 따라 서버 측 도구(웹 검색·코드 실행) 과금, 장문 컨텍스트 프리미엄, 캐시/배치 할인 등이 존재할 수 있다. 희소 활성화 설계로 추론 길이가 길어져도 비용 대비 성능 균형이 유리하다.

MiniMax 기업 배경과 로드맵

알리바바·텐센트의 지원을 받는 MiniMax는 2024년 말 영상 생성 도구 ‘video-01’로 주목을 받았고, 이후 개발자·기업을 겨냥한 오픈웨이트 LLM을 잇달아 공개했다. 2025년 초 MiniMax-01 시리즈(Text-01, VL-01)는 400만 토큰 컨텍스트 창을 선보였고, 2025년 6월 공개된 M1은 100만 토큰 컨텍스트와 하이브리드 MoE, 자체 강화학습 알고리즘(CISPO)으로 학습 비용을 약 $534,700까지 낮췄다. Apache 2.0~MIT의 개방형 라이선스, 구조화 함수 호출, 장문 컨텍스트 유지, 고효율 주의(attention) 설계 등은 멀티스텝 추론·데이터 집약형 파이프라인을 운영하는 엔지니어링 조직의 요구를 정면으로 겨냥한다. 중국의 DeepSeek, Qwen, Moonshot AI에 이어 MiniMax의 합류로, 오픈·효율·현실 적용 중심의 오픈웨이트 트렌드가 공고해졌다.

요약: 왜 MiniMax-M2 인가

MiniMax-M2는 MoE 기반 효율성과 최상급 에이전틱 성능을 양립시켜, 적은 GPU로도 엔터프라이즈급 자동화·개발 워크플로를 구현한다. 개방형 라이선스와 폭넓은 호환성, 경쟁적 가격, 추론 가시성·도구 호출의 결합은 내부 감사·튜닝·자체 호스팅에 유리하며, 실사용 환경에서 신뢰 가능한 오픈 모델의 실질적 기준점을 제시한다.

이 기사 공유하기