leangnews

2026년 01월 27일 10:02

Qwen3-Max-Thinking, ‘인류의 마지막 시험’서 경쟁 모델 제압

Qwen3-Max-Thinking, ‘인류의 마지막 시험’서 경쟁 모델 제압


기사 요약

  • 알리바바 클라우드 Qwen 팀이 공개한 추론 특화 모델 Qwen3-Max-Thinking이 웹 검색 도구와 결합해 HLE에서 Gemini 3 Pro와 GPT-5.2를 앞섰다.
  • 테스트 타임 스케일링 기반 헤비 모드와 경험 축적형 다회 추론, 적응형 툴 사용으로 환각을 줄이고 복잡한 에이전틱 워크플로에 최적화됐다.
  • 공격적인 토큰 요금과 도구별 과금, OpenAI·Anthropic 호환 API로 기업 채택을 노리지만 일부 미국 기업은 안보 이슈로 채택을 주저할 수 있다.

개요

중국 알리바바 클라우드 Qwen 연구팀이 새로운 사유(추론) 특화 모델 Qwen3-Max-Thinking을 공개했다. 오픈소스 모델로 입지를 넓힌 Qwen은 이번 독점 모델로 GPT-5.2와 Gemini 3 Pro의 추론 능력에 도전하며, 특히 웹 검색을 활용한 HLE("인류의 마지막 시험")에서 49.8점을 기록해 Gemini 3 Pro(45.8), GPT-5.2-Thinking(45.5)를 앞섰다. 서구 연구소가 주도해온 "리저닝(시스템 2)" 영역의 격차가 좁혀졌다는 신호와 함께, 합리적인 API 가격 정책으로 엔터프라이즈 채택을 공략하지만 미 정부 조달·안보 요건이 엄격한 기업은 채택을 신중히 검토할 수 있다.

아키텍처: 테스트 타임 스케일링의 재정의

경험 축적형 다회 추론과 take-experience

대부분의 모델이 선형 토큰 생성을 따르는 반면, Qwen3-Max-Thinking은 "헤비 모드"와 테스트 타임 스케일링으로 연산을 지능으로 전환한다. 단순한 best-of-N가 아니라 이전 단계의 추론을 요약·축적하는 고유의 take-experience 메커니즘을 적용해, 막다른 추론 경로를 조기에 식별하고, 이미 확인된 결론을 재도출하는 대신 미해결 불확실성에 연산을 집중한다. 그 결과 중복 추론을 줄이며 동일 창에 더 풍부한 문맥을 통합했고, GPQA(박사급 과학)가 90.3→92.8, LiveCodeBench v6가 88.0→91.4로 상승했다.

효율성의 체감 효과

이 접근법은 불필요한 분기 탐색을 피하고, 자기 성찰적 루프를 통해 추론 품질을 점진적으로 개선한다. 모델이 복잡한 문제에 직면했을 때 단순 추측을 지양하고, 실패 신호를 조기에 포착해 연산 예산을 재배치함으로써 토큰 비용 급증 없이 성능을 끌어올렸다.

순수 사고를 넘어: 적응형 툴링

Thinking/Non-thinking 모드 통합

Qwen3-Max-Thinking은 수학·추론에만 강했던 과거의 "생각하는 모델"을 넘어 브라우징·코드 실행을 자연스럽게 엮는다. 사용자의 명시적 지시 없이도 웹 검색·추출, 메모리(개인화 컨텍스트 저장/호출), 코드 인터프리터(Python 실행)를 과업에 맞춰 자율적으로 선택하고, Thinking 모드에서는 이들 도구를 동시 활용한다. 외부 검증 가능한 데이터에 근거해 추론을 보강하므로 환각을 효과적으로 완화한다.

벤치마크 분석

HLE·HMMT·코딩 과제 성과

엄격한 추론 평가인 HMMT Feb 25에서 Qwen3-Max-Thinking은 98.0점을 기록해 Gemini 3 Pro(97.5)를 근소하게 앞섰고 DeepSeek V3.2(92.5)를 크게 상회했다. 특히 에이전틱 검색 시나리오의 대표격인 HLE(3,000문항, 구글링으로 풀기 어려운 대학원급 문제)에서 웹 검색 도구를 장착한 점수 49.8로 Gemini 3 Pro(45.8), GPT-5.2-Thinking(45.5)를 제쳤다. 코딩 과제 Arena-Hard v2에서도 90.2로 Claude-Opus-4.5(76.7) 대비 우위를 보였다. 이는 외부 데이터 수집이 필수인 다단계 에이전트 워크플로에 이 모델의 아키텍처가 특히 적합함을 시사한다.

요금 체계: 리저닝의 경제학

토큰 단가와 포지셔닝

API 상의 qwen3-max-2026-01-23은 프리미엄이지만 접근 가능한 가격으로 책정됐다. 입력 $1.20/백만 토큰(≤32k 컨텍스트), 출력 $6.00/백만 토큰이다. 비교하면 Gemini 3 Pro(≤200K)는 입력 $2.00·출력 $12.00, GPT-5.2는 입력 $1.75·출력 $14.00, Claude Sonnet 4.5는 입력 $3.00·출력 $15.00, GPT-5.2 Pro는 입력 $21.00·출력 $168.00로, 플래그십 대비 공격적인 가격이다.

도구 과금과 프로모션

에이전트 기능은 토큰 비용(생각)과 툴 호출 비용(행동)을 분리 과금한다. search_strategy:agent 및 고급형 search_strategy:agent_max는 1,000회당 $10이며, agent_max는 한시적 특가로 추후 인상 가능성이 표기돼 있다. Responses API의 웹 검색도 1,000회당 $10이다. 채택 촉진을 위해 Web Extractor와 Code Interpreter는 현재 한시적 무료다. 이처럼 낮은 토큰 단가에 선택형 툴 과금을 결합하면, 텍스트 중심 에이전트는 저비용으로 운영하고 실시간 검색 등 외부 행동을 수행할 때만 프리미엄을 지불하는 구조를 설계할 수 있다.

개발자 생태계와 호환성

OpenAI·Anthropic 프로토콜 지원

알리바바 클라우드는 통합을 간소화했다. OpenAI 표준 포맷을 지원해 base_url과 모델명만 바꿔 손쉽게 전환할 수 있고, Anthropic 프로토콜도 지원해 Claude Code 같은 에이전틱 코딩 환경과도 호환된다. 엔터프라이즈 환경에 즉시 투입 가능한 드롭인 준비 상태를 갖췄다.

종합 평가

스마트 챗봇에서 유능한 에이전트로

2026년 AI 시장의 성숙을 상징하는 Qwen3-Max-Thinking은 고효율 추론과 자율적 툴 사용, 공격적 가격 정책을 결합해 엔터프라이즈 에이전트 경쟁의 상위권 주자로 부상했다. Code Interpreter와 Web Extractor의 "한시 무료" 기간은 지금이 실험에 적기임을 시사한다. 다만 중국계 모델 특성상 일부 미국 기업은 국가안보 요건을 고려해 채택을 보류할 수 있음을 유의해야 한다.

이 기사 공유하기