leangnews
Command Palette
Search for a command to run...
2026년 03월 03일 09:34
알리바바 Qwen3.5-9B, OpenAI 120B 능가…오픈소스로 노트북에서도 구동
기사 요약
- 알리바바 Qwen 팀이 Qwen3.5 소형 모델 시리즈(0.8B·2B·4B·9B)를 공개했으며, 9B는 여러 벤치마크에서 OpenAI gpt-oss-120B를 앞질렀다.
- 하이브리드 아키텍처와 네이티브 멀티모달 설계를 통해 메모리 병목을 줄이고 속도를 높였고, Apache 2.0으로 가중치를 전 세계에 공개했다.
- 개발자들은 노트북·브라우저·모바일 등 로컬 환경에서의 활용성과 베이스/인스트럭트 동시 공개를 환영하며, 기업용 에이전트와 엣지 자동화에 주목하고 있다.
Qwen3.5 소형 모델 시리즈 한눈에 보기
미국 AI 업계의 정치적 혼란과 달리, 중국에서는 연구 개발이 꾸준히 이어지고 있다. 알리바바의 Qwen 연구팀은 오픈소스 언어·멀티모달 모델 가문을 확장하며 Qwen3.5 소형 모델 시리즈를 공개했다. 구성은 0.8B·2B(초소형·고속, 배터리 우선 엣지용), 4B(경량 에이전트용 강력한 멀티모달 베이스, 262,144 토큰 컨텍스트), 9B(컴팩트 추론 특화)다. 특히 Qwen3.5-9B는 다국어 지식과 대학원급 추론 등 핵심 벤치마크에서 13.5배 큰 OpenAI의 gpt-oss-120B를 앞섰다는 결과를 제시했다. 모든 모델의 가중치는 Apache 2.0으로 공개돼 기업용 커스터마이징과 상용 배포에 적합하며, Hugging Face와 ModelScope에서 받을 수 있다.
하이브리드 효율과 네이티브 멀티모달
Qwen3.5 소형 모델의 기술적 토대는 표준 트랜스포머에서 한 걸음 더 나아간 효율적 하이브리드 아키텍처다. 선형 어텐션 계열인 Gated Delta Networks와 희소 Mixture-of-Experts(MoE)를 결합해 작은 모델의 ‘메모리 장벽’을 완화하고, 추론 처리량을 높이며 지연 시간을 크게 줄였다. 또한 비전 인코더를 사후 접합하는 대신, 멀티모달 토큰의 조기 결합(early fusion)으로 학습해 4B와 9B가 UI 요소 읽기나 동영상 내 개체 수 세기처럼 이전에는 대형 모델이 필요했던 시각 이해 능력을 본연의 형태로 발휘한다. 이처럼 Qwen3.5 소형 모델은 효율과 성능을 동시에 겨냥한다.
벤치마크 성능: 규모의 법칙을 거스르다
공개된 수치에 따르면 Qwen3.5-9B는 MMMU-Pro 시각 추론에서 70.1점을 기록해 Gemini 2.5 Flash-Lite(59.7)와 특화 모델 Qwen3-VL-30B-A3B(63.0)를 넘어섰다. GPQA Diamond에서는 81.7점으로 gpt-oss-120B(80.1)를 앞질렀고, Video-MME(자막 포함)에서도 9B가 84.5점, 4B가 83.5점으로 Flash-Lite(74.6)를 크게 상회했다. 수학 영역 HMMT 2025년 2월 평가에서 9B는 83.2점, 4B는 74.0점을 기록했고, 문서 인식 OmniDocBench v1.5에서는 9B가 87.7점으로 선두에 섰다. 다국어 지식 MMMLU에서도 9B가 81.2점으로 gpt-oss-120B(78.2)를 상회했다.
개발자 반응: “적은 연산으로 더 많은 지능”
단일 GPU에서도 구동 가능한 Qwen3.5-Medium 공개 직후, 더 작은 발자국을 내는 Qwen3.5 소형 모델 발표는 로컬 퍼스트를 지향하는 개발자들의 즉각적 관심을 끌었다. “How is this even possible?!”라는 반응과 함께, 4B가 이전 80B급에 근접하고 9B가 120B급과 비슷한 성능을 낸다는 평가가 이어졌다. “노트북에서 구동”, “폰용 0.8B/2B”, “오프라인·오픈소스” 같은 요약이 확산됐고, M1 MacBook Air에서 무료로 로컬 구동했다는 사례, 브라우저 내 직접 실행과 동영상 분석이 가능하다는 보고도 나왔다. 베이스(Base)와 인스트럭트(Instruct)를 함께 공개해, RLHF/SFT 편향 없이 산업 현장 맞춤 튜닝을 시작할 수 있다는 점도 높이 평가된다.
오픈 라이선스와 배포
Qwen3.5 시리즈는 Apache 2.0으로 가중치와 설정이 공개돼 로열티 없이 상용 통합, 수정(SFT·RLHF), 재배포가 가능하다. 이는 폐쇄형 API가 야기하는 공급업체 종속을 줄이고, Ollama 같은 로컬 우선 배포 채널을 통해 Qwen3.5 소형 모델을 손쉽게 현장에 들일 수 있게 한다.
왜 ‘작은 모델’이 중요한가: 에이전틱 전환
채팅을 넘어 자율성을 지향하는 ‘에이전틱 리얼라인먼트’ 국면에서, 에이전트는 생각(추론)·보기(멀티모달)·행동(툴 사용)을 동시에 수행해야 한다. 초대형 모델로 이 루프를 돌리는 것은 비용이 과도하지만, 로컬의 Qwen3.5-9B라면 훨씬 저렴하다. 대규모 멀티 에이전트 환경에서의 강화학습 확장으로 ‘사람에 정렬된 판단’을 부여받았다는 설명과 함께, 데스크톱 정리나 게임 플레이 역공학 같은 다단계 목표를 처리하는 사례가 제시됐다. 기업은 정교한 추론을 엣지(개별 디바이스·로컬 서버)로 이전해, 고비용 클라우드 API와 지연을 줄일 수 있다. 이 전환의 중심에는 Qwen3.5 소형 모델이 놓여 있다.
실제 적용 예시
데스크톱·모바일 UI 자동화(픽셀 수준 그라운딩)
자연어 지시만으로 화면 요소를 인지해 폼 입력, 파일 정리, 설정 변경 등을 수행한다. Qwen3.5 소형 모델 기반 경량 에이전트가 저전력 엣지에서도 안정적으로 동작한다.
문서·도표 구조화 추출(고정밀 OCR 대체)
문서 이해 벤치마크에서 90%를 넘는 수준을 보이며, OCR·레이아웃 파이프라인을 통합해 다양한 양식·차트에서 구조화 데이터를 뽑아낸다.
레포지토리 리팩터링·디버깅
최대 262K 토큰 컨텍스트(4B 기준)와 확장 컨텍스트 환경에서 수십만 라인의 코드를 한꺼번에 다뤄, 프로덕션급 리팩터링과 자동 디버깅을 지원한다.
엣지 영상 요약·공간 추론
0.8B·2B는 모바일 디바이스에서 오프라인으로 60초(8FPS) 내 영상 요약과 장면 이해를 수행해 배터리 부담을 최소화한다.
엔터프라이즈 고려사항
다단계 에이전틱 워크플로에서는 초기 작은 오류가 연쇄 환각으로 번질 수 있어 검증 가능한 과제(코딩·수학·규칙 기반 지시 따르기) 중심으로 운영해야 한다. 기존 복잡한 레거시 코드 디버깅에는 다소 취약할 수 있으며, 9B 등 ‘소형’이라도 고처리량 추론에는 상당한 VRAM이 필요하다. 중국 기반 모델 사용 시 일부 지역에서 데이터 주권 이슈가 제기될 수 있으나, 오픈 가중치를 자체/주권 클라우드에 호스팅해 완화할 수 있다.