leangnews
Command Palette
Search for a command to run...
2025년 12월 10일 09:02
Z.ai, 멀티모달 툴 호출 비전 모델 GLM‑4.6V 공개
기사 요약
- 중국 Zhipu AI가 오픈소스 비전-언어 모델 GLM‑4.6V와 경량 Flash를 공개, 멀티모달 추론과 프론트엔드 자동화를 겨냥했다.
- 네이티브 함수 호출, 128K 컨텍스트, 임의 해상도·종횡비 지원 등으로 20여 개 벤치마크에서 동급 최고 수준을 기록했다.
- MIT 라이선스와 경쟁력 있는 API 가격(본 모델 유료, Flash 무료)으로 엔터프라이즈 도입과 로컬 배치를 용이하게 한다.
개요
중국의 Zhipu AI(Z.ai)가 오픈소스 비전-언어 모델 시리즈인 GLM‑4.6V를 공개했다. 대형 106B와 경량 9B 변형으로 구성되며, 128K 토큰 컨텍스트, 멀티모달 추론, 프론트엔드 자동화, 고효율 배치를 목표로 한다. 제공 형태는 OpenAI 호환 API, 웹 데모, Hugging Face 가중치 다운로드, HF Spaces 데스크톱 앱 등이며, MIT 라이선스로 상업·비상업적 재사용과 로컬 배포가 자유롭다.
아키텍처와 기술 역량
모델은 멀티모달 입력에 맞게 조정된 전통적 인코더-디코더 구조를 따른다. AIMv2-Huge 기반 ViT 인코더와 MLP 프로젝터가 시각 특징을 LLM 디코더와 정렬하고, 동영상 입력은 3D 컨볼루션과 시간 압축을 활용한다. 2D‑RoPE와 절대 위치 임베딩의 바이큐빅 보간으로 공간 정보를 인코딩하며, 최대 200:1의 파노라마 등 임의 해상도·종횡비를 지원한다. 타임스탬프 토큰으로 프레임 시퀀스를 처리해 시간적 추론을 강화한다.
디코딩 측면에서는 함수 호출 프로토콜에 정렬된 토큰 생성을 지원해 텍스트·이미지·툴 출력 전반의 구조적 추론을 수행한다. 확장된 토크나이저 어휘와 출력 포맷 템플릿으로 API/에이전트 호환성을 높였다.
네이티브 멀티모달 툴 사용
시리즈는 네이티브 함수 호출을 도입해 스크린샷·이미지·문서를 툴의 인자로 직접 전달한다. 이 기능으로 GLM‑4.6V는 중간 텍스트 변환 없이도 입력 툴(예: 문서 크롭·분석)과 출력 툴(차트 렌더러·웹 스냅샷)의 시각 데이터를 양방향으로 주고받아 추론 사슬에 통합한다. 실제로 혼합 형식 문서의 구조화 리포트 생성, 후보 이미지의 시각 감사, 논문 그림의 자동 크롭, 시각 웹 검색과 멀티모달 질의응답 같은 업무를 완료할 수 있다.
주요 섹션: GLM‑4.6V 툴 호출
툴 호출 파이프라인은 시각 자산을 매개로 단계별 실행 결과를 축적하며, 함수 서명에 맞춘 구조적 출력으로 후속 에이전트나 API와 일관되게 연계된다.
벤치마크와 비교
공개된 20여 개 벤치마크에서 대형 106B는 MMBench, MathVista, MMLongBench, ChartQAPro, RefCOCO, TreeBench 등에서 오픈소스 동급 대비 SoTA 또는 근접 성능을 보였고, 9B 경량 변형은 Qwen3‑VL‑8B 등과 비교해 대부분의 항목에서 우세했다. 128K 윈도우 덕분에 장문 문서·영상 요약·구조적 멀티모달 추론 과제에서 더 큰 모델을 앞서기도 했다. 예시로 MathVista 88.2, WebVoyager 81.0 등의 스코어가 보고되며, 추론 백엔드는 vLLM을 사용하고 동영상 작업에 SGLang을 지원한다. 또한 GLM‑4.6V는 긴 맥락 과제에서 경쟁력이 두드러진다.
프론트엔드 자동화와 롱 컨텍스트 워크플로
UI 스크린샷에서 픽셀 정밀 HTML/CSS/JS를 재현하고, 자연어 편집 명령으로 레이아웃을 수정하며, 특정 UI 컴포넌트를 시각적으로 식별·조작할 수 있다. 이 능력은 스크린 캡처를 원어로 이해하는 엔드투엔드 비주얼 프로그래밍 인터페이스에 통합돼 설계 의도와 산출 코드를 반복 개선한다.
장문 시나리오에서는 한 번의 추론으로 150쪽 내외 텍스트, 200장 분량의 슬라이드, 1시간 영상까지 처리한다. 금융 리서치의 다문서 분석, 스포츠 중계의 전체 경기 요약과 타임스탬프 이벤트 감지 사례가 보고됐다.
학습과 강화학습
모델은 다단계 사전학습 후 SFT와 RL을 거쳤다. RLCS로 학습 난이도를 동적으로 조절하고, STEM·차트 추론·GUI 에이전트·비디오 QA·공간 정렬 등 도메인별 보상 검증기를 활용한다. 함수 인지형 학습으로 <think>, <answer>, <|begin_of_box|> 같은 태그를 사용해 추론 단계와 답안 형식을 정렬한다. 확장성을 위해 RLVR 중심의 검증 가능 보상을 채택하고, 다중 모달 도메인에서의 안정화를 위해 KL/엔트로피 손실을 회피했다.
가격과 라이선스
API 가격은 본 모델이 1M 토큰 기준 입력 $0.30/출력 $0.90, 경량 변형은 무료다. 주요 제공사 대비 멀티모달 대규모 추론에서 비용 효율이 높은 축에 속하며, 모델 가중치와 문서는 Hugging Face, 관련 코드는 GitHub에 공개돼 있다. MIT 라이선스는 사내 도구·프로덕션 파이프라인·엣지 배포 등 독점 시스템 통합과 에어갭 환경에 유연하다.
이전 릴리스와 생태계 맥락
직전 GLM‑4.5 시리즈는 추론 모드(생각/비생각) 이원화, 도구 사용과 코딩·에이전트 기능, 프롬프트 한 번으로 PPT 자동 생성 등을 선보였고, X·AirX·Flash 등 파생 변형으로 초고속·저비용 시나리오를 겨냥했다. 이번 세대는 지각에서 행동까지 닫힌 고리를 지향하는 네이티브 함수 호출로 에이전틱 멀티모달 시스템에 한 발 더 다가섰으며, OpenAI GPT‑4V, Google Gemini‑VL 등과 경쟁 구도를 이룬다.
실제 적용 예시
제품 랜딩 페이지나 대시보드 UI 재구현, 디자인 시스템 문서화, 멀티모달 검색/요약 파이프라인 등에서 GLM‑4.6V의 프론트엔드 자동화와 긴 맥락 처리를 실무에 적용할 수 있다.
홈페이지 제작 전 필수 체크리스트
- 요구사항 정리: 화면 해상도·종횡비(최대 200:1)와 자산 포맷을 확정하고 개인정보·저작권 정책을 점검한다.
- 모델/백엔드 선택: 지연 시간·자원 제약에 맞춰 9B 로컬 또는 106B 클라우드, vLLM/SGLang 스택을 결정한다.
- 툴 어댑터 구성: 크롭퍼, OCR, 차트 렌더러, 웹 스냅샷 등 함수 호출 툴의 입출력 스키마를 정의한다.
- 접근성/국제화: 색 대비, 키보드 내비게이션, 다국어 폰트·줄바꿈 규칙을 사전 점검한다.
- 보안/거버넌스: MIT 라이선스 준수, 로그 마스킹, 에어갭 배포 여부와 모니터링 기준을 확정한다.
홈페이지 제작 프로세스 단계별 안내
1) 와이어프레임·스크린샷 입력 ▶ 2) 픽셀 정밀 HTML/CSS/JS 재현 ▶ 3) 자연어 명령으로 레이아웃·카피 수정 ▶ 4) 컴포넌트 식별·속성 조작 ▶ 5) 이미지 자동 크롭·OCR·차트 생성으로 시맨틱/시각 QA ▶ 6) 코드 내보내기 및 빌드 파이프라인 연계 ▶ 7) 128K 컨텍스트로 문서·영상 스펙 검증 ▶ 8) 사용자 피드백·RLVR 지표 기반 개선 사이클 운영.