leangnews
Command Palette
Search for a command to run...
2026년 02월 19일 14:02
알리바바 Qwen 3.5 397B-A17B, 1조 파라미터급 모델 능가·비용은 1/18
기사 요약
- 알리바바가 설 연휴에 맞춰 공개한 Qwen 3.5는 3,970억 파라미터 중 토큰당 170억만 활성화해 지연을 크게 낮추고, Qwen3-Max를 포함한 대형 모델 대비 성능·비용 경쟁력을 입증했다.
- 네이티브 멀티모달 학습으로 MathVista 90.3, MMMU 85.0을 기록하며, 일부 비전 벤치마크에선 Gemini 3에 뒤지지만 Claude Opus 4.5를 앞서고 GPT-5.2와 대등한 수준을 보인다.
- 에이전트형 기능과 Qwen Code·OpenClaw 연동, 15,000개 RL 환경, 256K~100만 토큰 컨텍스트, Apache 2.0 라이선스, 온프레미스 배포시 256~512GB RAM 요구 등 실무 도입 정보를 제시한다.
알리바바의 397B-A17B 공개: 실행 가능한 모델의 반격
알리바바는 설 연휴에 맞춰 오픈 웨이트 플래그십을 공개했다. Qwen 3.5는 총 3,970억 파라미터 중 매 토큰당 170억만 활성화하는 초희소 MoE 설계를 통해, 임대형 독점 모델과 맞붙을 만큼의 성능을 가시적인 비용과 지연으로 제공하며 엔터프라이즈 조달 전략의 변곡점을 만들고 있다.
스피드와 확장성을 위한 새로운 아키텍처
초희소 MoE와 512 전문가(알리바바 Qwen 3.5)
전작 Qwen3-Next의 계보를 잇는 이번 모델은 전문가 수를 128에서 512로 확장하고 주의(attention) 메커니즘을 개선했다. 활성 파라미터가 170억에 불과해 실사용 연산량은 17B급 밀집 모델에 가깝지만, 필요 시 대규모 전문가 풀의 지식을 끌어와 전문적 추론을 수행한다. 256K 컨텍스트에서 Qwen3-Max 대비 19배, 235B-A22B 대비 7.2배 빠른 디코딩을 보였고, 운영 비용은 약 60% 절감되며 동시 처리 능력은 8배 확대됐다. 또한 Google Gemini 3 Pro 대비 약 1/18 수준의 비용을 제시한다.
멀티토큰 예측과 초장문 컨텍스트(Qwen 3.5)
멀티토큰 예측을 채택해 사전학습 수렴을 가속하고 처리량을 높였으며, Qwen3-Next의 메모리 효율적 어텐션을 계승해 초장문 입력에서도 안정적이다. 오픈 웨이트 버전은 256K 컨텍스트를, 호스티드 Plus 버전은 최대 100만 토큰 창을 지원한다.
네이티브 멀티모달, 덧붙임이 아닌 설계의 중심
텍스트·이미지·비디오 동시 학습
별도 비전 인코더를 덧대는 방식에서 벗어나 처음부터 텍스트·이미지·비디오를 함께 학습해 시각 추론을 핵심 표현 공간에 녹여냈다. 덕분에 문서-도면 동시 해석, UI 스크린샷 기반 에이전트 태스크, 복잡한 레이아웃의 구조화 추출처럼 텍스트-이미지 결합 과제에서 어댑터 기반 모델을 앞서는 경향을 보인다. MathVista 90.3, MMMU 85.0을 기록했으며, 일부 비전 특화 벤치마크에선 Gemini 3에 뒤지지만 멀티모달 전반에서는 Claude Opus 4.5를 상회하고 GPT-5.2와 경쟁력 있는 수치를 보인다.
대형 독점 모델과의 벤치마크 비교
내부 공개 평가에 따르면 본 모델은 추론과 코딩 다수 과제에서 1조 파라미터를 넘는 Qwen3-Max를 앞섰다. 또한 일반 추론과 코딩 벤치마크에서 GPT-5.2, Claude Opus 4.5, Gemini 3 Pro와 대등하거나 경쟁력 있는 결과를 제시했다.
언어 범위 확대와 토크나이저 효율
250k 어휘·201개 언어 지원
어휘를 15만에서 25만 토큰으로 늘려 Google의 약 256K 토크나이저와 비슷한 수준에 도달했고, 지원 언어·방언은 119개에서 201개로 확대됐다. 대어휘 토크나이저는 아랍어·태국어·한국어·일본어·힌디어 등 비라틴 문자권에서 토큰 수를 15~40% 절감해 글로벌 배포 시 응답 시간과 추론 비용을 직접 낮춘다.
에이전트형 역량과 개발 생태계
Qwen Code·OpenClaw·RL 강화학습
알리바바는 본 모델을 에이전트 지향으로 포지셔닝한다. 자연어로 복잡한 코딩을 위임하는 CLI ‘Qwen Code’를 오픈소스로 공개했고, 올해 개발자 채택이 급증한 오픈소스 에이전트 프레임워크 OpenClaw와의 호환도 강조했다. 1만5천 개의 강화학습 환경으로 추론·태스크 수행을 다듬었으며, 호스티드 Plus는 지연에 민감한 빠른 모드, 복잡 과제를 위한 사고(thinking) 모드, 자동 선택 모드를 제공해 동일 모델로 실시간 상호작용과 심층 분석 워크로드를 모두 충족한다.
도입 현실: 인프라 요건과 라이선스
온프레미스 요구사항·Apache 2.0
오픈 웨이트를 내부 운영하려면 양질의 하드웨어가 필요하다. 양자화 버전 기준 약 256GB RAM(권장 여유 512GB)이 요구되므로 워크스테이션급보다는 GPU 노드 환경이 적합하다. 모든 오픈 웨이트 모델은 Apache 2.0으로 배포되어 상업적 이용·변경·재배포에 제약이 거의 없어 법무·구매 관점의 리스크를 크게 줄인다.
로드맵과 가용성
후속 라인업과 배포 경로
이번 공개는 Qwen3.5 계열의 시작에 불과하다. 전 세대 패턴을 고려하면 수주·수개월 내 더 작은 밀집 증류 모델과 추가 MoE 구성이 뒤따를 전망이며, 작년 9월 공개된 80B 모델의 미성숙 평가를 감안하면 해당 스케일의 3.5 변형도 유력하다. Qwen 3.5는 현재 Hugging Face(Qwen/Qwen3.5-397B-A17B)에서 사용 가능하고, 호스티드 Plus는 Alibaba Cloud Model Studio를 통해 제공되며, chat.qwen.ai에서 공개 체험을 지원한다.