
기사 요약
- 알리바바 Qwen 팀이 하이브리드 아키텍처의 Qwen3-Next를 공개, Gated DeltaNet과 Gated Attention을 결합해 긴 문맥에서도 빠르고 정확합니다.
- 800억 파라미터 중 토큰당 30억만 활성화하고 기본 25.6만 토큰 컨텍스트를 지원해 추론 속도와 비용을 크게 낮췄습니다.
- 초희소 MoE(512 전문가), MTP, 안정화 기법을 도입해 벤치마크에서 Qwen3-32B와 동급 이상 성능을 보이며 Apache 2.0으로 무료 상용 이용이 가능합니다.
Qwen3-Next: 30억 활성 파라미터로 효율과 성능을 동시에
개요
알리바바의 Qwen 연구팀이 오픈소스 대규모 언어모델 신작을 내놨습니다. Qwen3-Next는 인스트럭트(Instruct)와 사고(Thinking) 두 변형으로 공개되며, 기업과 연구자가 자유롭게 수정·상용 활용할 수 있는 Apache 2.0 라이선스를 채택했습니다. 긴 문맥 처리, 추론 효율, 배포 비용을 모두 겨냥한 설계가 특징입니다.
Qwen3-Next 하이브리드 아키텍처
Qwen3-Next는 기존 Qwen3에서 한발 더 나아가 Gated DeltaNet과 Gated Attention을 결합한 하이브리드 구조를 도입했습니다. DeltaNet은 새 텍스트가 들어올 때마다 점진적으로 상태를 갱신하는 ‘빠른 독자’로, 약 3/4의 레이어에 적용돼 매우 긴 문서를 효율적으로 다룹니다. 반면 Gated Attention은 단어 간 관계를 정밀하게 따지는 ‘꼼꼼한 검수자’로, 게이트를 추가해 노이즈를 걸러 안정성과 정확도를 높였고 약 1/4 레이어에 사용돼 속도 저하를 최소화합니다. 두 방식을 혼합해 속도와 정밀도를 함께 확보했습니다.
Qwen3 Next의 희소성: 활성 30억/총 800억
이 모델은 토큰당 8천억이 아니라 800억(80B) 파라미터 중 단 30억(3B)만 활성화하는 초희소 실행으로 효율을 극대화합니다. 입력·출력 토큰을 처리할 때 필요한 파라미터를 줄여 전력·연산 비용을 크게 낮춥니다. 기본 컨텍스트 윈도우는 256,000토큰(오픈AI GPT-5와 동급)이며, RoPE 스케일링을 통해 최대 100만 토큰까지 검증되었습니다.
초희소 MoE와 안정화 기법
모델은 128에서 512로 확장된 초희소 Mixture-of-Experts 구조를 사용합니다. 10개의 라우티드 전문가에 1개의 공유 전문가를 더해 계산 효율과 성능의 균형을 잡았고, 학습 손실을 안정적으로 감소시킵니다. 안정화를 위해 QK-Norm을 Zero-Centered RMSNorm으로 대체하고, 정규화 가중치에 weight decay를 적용했으며, MoE 라우터를 초기화 단계에서 정규화해 초반 전문가 선택 치우침을 방지했습니다. 또한 네이티브 MTP(멀티 토큰 예측)와 다단계 추론 최적화를 통해 추측 디코딩의 수용률과 실사용 디코딩 효율을 높였습니다.
성능과 비용: 실사용 이점
베이스 모델(Qwen3-Next-80B-A3B)은 추론 시 일부 파라미터만 활성화함에도 다수 벤치마크에서 Qwen3-32B를 상회합니다. 학습은 Qwen3 코퍼스의 부분집합 15조 토큰으로 진행됐고, Qwen3-32B 대비 10% 미만의 연산 비용으로 완료했습니다. 32K 토큰 이상의 긴 문맥에서도 프리필과 디코드 단계 처리량이 10배 이상 빨라졌습니다. 사고·코딩 과제에서는 Thinking 변형이 Qwen3-30B/32B 동급을 넘어, 일부 벤치마크에서 비공개 Gemini-2.5-Flash-Thinking도 앞섰습니다. 긴 문맥 시나리오에서 Instruct 변형은 235B급 플래그십에 근접한 성능을 보입니다. 독립 벤치마크 Artificial Analysis 기준, 추론 특화 변형은 Intelligence Index 54점(DeepSeek V3.1 Reasoning과 동급 지능)에 도달했고, 비추론 변형은 45점으로 gpt-oss-20B, Llama Nemotron Super 49B v1.5와 유사한 수준을 기록했습니다. FP8 정밀도 기준 80B 모델이 단일 Nvidia H200 GPU에 적재 가능해, 대규모 클러스터가 없는 조직에도 접근성이 높습니다.
가격도 공격적입니다. 알리바바 클라우드 기준 추론 특화형은 입력/출력 백만 토큰당 $0.5/$6, 비추론형은 $0.5/$2로, Qwen3-235B 대비 최소 25% 저렴합니다. Hugging Face, ModelScope, Kaggle, Alibaba Cloud에서 바로 사용할 수 있습니다.
개발자 접근성과 라이선스
두 변형(Qwen3-Next-80B-A3B-Instruct/Thinking)은 Apache 2.0으로 공개돼 수정·배포·상용 이용이 자유롭습니다. Hugging Face Transformers에 통합되어 있으며, SGLang과 vLLM 등에서 OpenAI 호환 API 엔드포인트로 추론을 지원합니다. Qwen-Agent와의 연동으로 애플리케이션 내 도구 사용도 간소화됩니다.
로드맵과 전망
Qwen3-Next는 장문맥 최적화와 활성 파라미터 절감을 통해 효율과 확장성을 동시에 겨냥한 전환점입니다. 팀은 이미 Qwen3.5를 예고했으며, 이번 아키텍처를 토대로 더 높은 성능과 생산성을 달성한다는 계획입니다.