leangnews

Command Palette
Search for a command to run...

2026년 02월 27일 18:54

알리바바 Qwen3.5 미디엄, 로컬 PC에서 Sonnet 4.5급 성능

기사 요약

알리바바 Qwen 팀이 오픈소스 중심의 Qwen3.5 미디엄 모델 3종과 API 전용 Flash를 공개해 에이전트형 도구 호출을 지원했다.
소비자용 32GB GPU에서 100만+ 토큰 컨텍스트와 4비트 가중치·KV 캐시 양자화를 구현해 GPT-5 mini와 Claude Sonnet 4.5를 벤치마크에서 앞섰다.
기업은 온프레미스에서 대규모 문서·영상 분석을 프라이버시를 지키며 수행하고, 합리적 API 요금으로 자율 에이전트를 구축할 수 있다.

Qwen3.5 미디엄 모델 출시 개요

알리바바의 Qwen 팀이 에이전트형 Tool Calling을 지원하는 대규모 언어모델 시리즈를 공개했다. 오픈소스 Apache 2.0 라이선스로 상업적 사용이 가능한 모델은 Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B 세 가지이며, 지금 바로 Hugging Face와 ModelScope에서 받을 수 있다. Qwen3.5-Flash는 알리바바 클라우드 Model Studio API로만 제공되는 독점 모델이지만 비용 경쟁력은 서구권 주요 모델 대비 매우 높다. 이 오픈소스 라인업인 Qwen3.5 미디엄 모델은 동급 폐쇄형 모델과의 서드파티 벤치마크에서 대등하거나 우세한 성능을 보였다.

로컬 성능과 초장문 컨텍스트

핵심은 데스크톱 수준의 자원으로도 ‘프론티어급’ 컨텍스트 창을 제공한다는 점이다. 플래그십 Qwen3.5-35B-A3B는 32GB VRAM의 소비자용 GPU에서 100만 토큰을 넘는 컨텍스트 길이를 지원한다. 이는 4비트 가중치와 KV 캐시 양자화에서의 근손실 수준 정확도를 바탕으로 하며, 서버급 인프라 없이도 초대용량 데이터 처리가 가능하도록 한다. 이러한 효율성 덕분에 Qwen3.5 미디엄 모델은 로컬 개발 환경에서도 실전 배치가 용이하다.

아키텍처: Gated Delta + Sparse MoE

매개변수 효율과 전문가 라우팅

Qwen 3.5는 표준 트랜스포머 블록에 Gated Delta Networks와 희소 MoE를 결합한 하이브리드 구조를 채택했다. Qwen3.5-35B-A3B 기준 총 350억 매개변수 중 토큰당 30억 매개변수만 활성화하며, MoE 계층은 256명의 전문가로 구성되고 8개 라우티드 전문가와 1개의 공유 전문가를 사용해 성능을 유지하면서 추론 지연을 낮춘다.

4비트 양자화와 베이스 모델 공개

시리즈 전반이 4비트 가중치로 압축해도 정확도를 높게 유지하도록 설계됐고, 로컬 배포 시 메모리 발자국을 크게 줄인다. 연구 커뮤니티 지원을 위해 지시튜닝 이전의 Qwen3.5-35B-A3B-Base도 함께 오픈소스로 공개됐다.

제품 기능: Thinking Mode와 도구 호출

기본 'Thinking Mode'

Qwen 3.5는 기본값으로 내부 추론 연쇄를 생성하는 네이티브 ‘Thinking Mode’를 제공한다. 최종 답변 전, 모델은 <think> 태그로 구분된 내부 사고 과정을 통해 복잡한 논리를 전개하며, 에이전트형 Tool Calling과 결합해 더 신뢰도 높은 작업 자동화를 구현한다. 이러한 설계는 Qwen3.5 미디엄 모델의 에이전트 활용도를 크게 높인다.

하드웨어별 라인업

Qwen3.5-27B는 효율 최적화 버전으로 80만+ 토큰 컨텍스트를 제공한다. Qwen3.5-Flash는 호스팅형 프로덕션 버전으로 기본 100만 토큰 컨텍스트와 공식 도구를 내장한다. Qwen3.5-122B-A10B는 80GB VRAM의 서버급 GPU를 대상으로 100만+ 컨텍스트를 지원하며, 초대형 프런티어 모델과의 격차를 좁힌다.

벤치마크 결과

35B-A3B는 이전 세대 대형 모델인 Qwen3-235B를 능가했고, OpenAI의 GPT-5 mini와 Anthropic의 Claude Sonnet 4.5도 지식(MMMLU)과 시각 추론(MMMU-Pro) 등에서 앞섰다. 전반적으로 Qwen3.5 미디엄 모델은 동급 대비 높은 정확도와 효율을 동시에 달성했다.

가격과 API 통합

Qwen3.5-Flash 요금

알리바바 클라우드 Model Studio의 Qwen3.5-Flash API는 입력 100만 토큰당 $0.10, 출력 100만 토큰당 $0.40, 캐시 생성 100만 토큰당 $0.125, 캐시 읽기 100만 토큰당 $0.01로 책정됐다. Tool Calling은 웹 검색 1,000회당 $10이며, 코드 인터프리터는 한시적으로 무료다. 글로벌 주요 LLM 중에서도 API 운영 비용이 가장 저렴한 축에 속한다.

비교 관점의 비용 경쟁력

동급 대비 낮은 토큰 단가와 캐시 요금 구조 덕분에 총소유비용(TCO)이 크게 절감된다. Google Gemini 3 Pro, OpenAI GPT-5.2, Anthropic Claude 계열 등과 비교해도 예산 민감형 워크로드에 유리하며, 대용량 컨텍스트 기반 파이프라인을 경제적으로 운영할 수 있다.

엔터프라이즈 시사점

Qwen3.5 미디엄 모델 출시는 비기술 조직도 온프레미스에서 빠른 실험과 미세조정을 수행하도록 문턱을 낮춘다. 방화벽 내부에서 MoE 기반 모델을 구동하면 대규모 문서 저장소나 시간 단위 영상도 서드파티 API 노출 없이 분석할 수 있고, 네이티브 Thinking Mode와 공식 Tool Calling으로 더 신뢰도 높은 자율 에이전트를 구축할 수 있다. 허깅페이스 초기 도입자들은 대규모 폐쇄형 모델이 독주하던 에이전트 시나리오에서 ‘격차 축소’를 특히 호평했다. 규모 경쟁보다 아키텍처 효율성에 주력하는 이 변화는 AI 도입을 비용 효율적이면서도 안전하고 민첩하게 만든다.

최신기사

ServiceNow, '역할 자동화'로 자율형 AI 업무 확장 선언

Old Well Labs, 전략적 투자 유치…자본배분자-운용사 연결 플랫폼 고도화

구글 Nano Banana 2, 기업용 AI 이미지 비용 장벽 낮춘다

클로드 탈옥 공격: 멕시코 정부 해킹, 보안 스택이 보지 못한 네 도메인 침투

Perplexity, 19개 모델 조율 AI 에이전트 ‘Computer’ 출시(월 200달러)

AT&T, 에이전트형 AI로 비용 90% 절감·하루 270억 토큰 처리

Helm.ai Driver, 비전만으로 도심 자율주행 구현…L2+~L4 확장성 확보

시각적 모방 학습: Guidde, 전문가 비디오로 에이전트 훈련

브레인랩·프리시전 뉴로메드, AI 기반 CED 치료 계획 플랫폼 공동 개발