leangnews

2026년 01월 15일 13:01

Z.ai 오픈소스 GLM-Image, 복잡한 텍스트는 Nano Banana Pro 앞서나 미학은 열세

Z.ai 오픈소스 GLM-Image, 복잡한 텍스트는 Nano Banana Pro 앞서나 미학은 열세


기사 요약

  • Z.ai의 오픈소스 160억 매개변수 GLM-Image가 하이브리드 AR+디퓨전으로 정보 밀도가 높은 이미지를 정밀하게 생성한다.
  • CVTG-2k에서 GLM-Image는 0.9116으로 Nano Banana Pro의 0.7788을 앞섰지만, 지시 따르기와 미학적 품질은 실사용에서 열세를 보였다.
  • MIT/Apache 2.0 기반의 관대한 라이선스와 자체 호스팅 이점이 크지만, H100 기준 2048×2048 생성에 약 252초가 걸리는 등 계산 비용이 높다.

개요

2026년 현재, Anthropic의 Claude Code 급성장과 함께 구글 Gemini 3 계열(특히 이미지 생성 특화 Nano Banana Pro)이 엔터프라이즈 채택을 이끌고 있다. 여기에 오픈소스 대안으로 등장한 Z.ai의 GLM-Image는 160억 파라미터의 하이브리드(오토리그레시브+디퓨전) 모델로, 인포그래픽·슬라이드·기술 도식 같은 텍스트 중심 시각물을 높은 정확도로 생성한다.

벤치마크: 독점 모델을 넘어선 정밀도

CVTG-2k(Complex Visual Text Generation)에서 GLM-Image의 단어 정확도 평균은 0.9116으로, 엔터프라이즈 신뢰성 기준으로 자주 거론되는 Nano Banana Pro(=Nano Banana 2.0)의 0.7788을 크게 앞섰다. 반면 단일 스트림 영어 장문 생성에서는 Nano Banana Pro가 0.9808, GLM-Image가 0.9524로 근소 우위를 보였다. 텍스트 영역이 늘어날수록 GLM-Image는 90%대 정확도를 유지하는 반면, Nano Banana Pro는 70%대에 머물러, 다영역 텍스트가 필요한 실무 슬라이드·포스터 제작에서 생산자산과 환각의 갈림길을 가른다.

실사용 체감과 한계

Hugging Face 데모에서 별자리 인포그래픽 생성 시, 요구 조건의 일부만 반영되는 등 지시 따르기와 텍스트 충실도에서 기대에 못 미쳤다. 반면 Nano Banana Pro는 구글 검색 통합으로 외부 정보를 즉시 조회해 요구사항 충족도가 높았다. 미학적 품질도 OneIG 기준 Nano Banana 2.0이 0.578, GLM-Image가 0.528로, GLM-Image가 세밀함과 선명도에서 다소 뒤처졌다.

아키텍처 전환: 하이브리드의 의미

일반 확산(디퓨전) 모델은 전역 구성과 미세 질감을 동시에 다루다 지시 잊힘(semantic drift)이 발생하기 쉽다. GLM-Image는 이미지를 먼저 ‘추론’하고 다음에 ‘채색’하는 접근으로, 설계(무엇을·어디에)와 묘사(어떻게)를 분리해 텍스트 정확도와 배치 제어력을 끌어올렸다.

AR 생성기(설계자) — GLM-Image의 뼈대

GLM-4-9B를 기반으로 픽셀 대신 시맨틱 VQ 기반의 ‘비주얼 토큰’을 예측해 레이아웃·텍스트 위치·객체 관계를 먼저 고정한다. 이로써 “4단 튜토리얼” 같은 복잡 지시를 언어모델 수준의 추론력으로 구조화할 수 있다.

디퓨전 디코더(화가)

CogView4 계열의 70억 파라미터 DiT 디코더가 고주파 디테일(질감·조명·스타일)을 채운다. AR 모듈이 철자와 위치를 보장하고, 디퓨전이 사진적 완성도를 담당한다.

학습 커리큘럼: 구조 먼저, 디테일 나중

텍스트 임베딩을 동결한 채 비전 임베딩과 비전 LM 헤드를 학습해 텍스트·이미지의 공통 의미 공간을 정립하고, MRoPE로 복합 모달 포지셔닝을 처리했다. 해상도는 256px에서 래스터 스캔으로 시작해 512–1024px 혼합 구간에서 ‘프로그레시브 생성’으로 전환, 다운샘플된 타깃에서 약 256개의 ‘레이아웃 토큰’을 먼저 생성하고 가중치를 높여 전역 구성을 우선 학습시켰다. 이 덕분에 포스터·도식·인포그래픽처럼 구조적 엄밀성이 중요한 과제에서 GLM-Image가 강세를 보인다.

라이선스: 엔터프라이즈 친화적이나 혼선 존재

가중치는 Hugging Face에서 MIT, 코드와 문서는 Apache 2.0으로 표기되는 경미한 불일치가 있다. 그럼에도 두 라이선스 모두 상업적 이용·수정·배포가 자유롭고, Apache 2.0은 특허 라이선스 조항을 포함해 대기업에 유리하다. 강제 공개 의무(코피레프트)가 없어 사내 워크플로우나 제품에 통합해도 IP 공개 부담이 없다. 실무 권고는 가중치는 MIT, 추론 코드는 Apache 2.0으로 취급해 내부 호스팅·브랜드 자산 파인튜닝·폐쇄망 통합을 빠르게 진행하는 것이다. GLM-Image의 개방형 라이선스는 벤더 종속 없이 비용 효율적 운영을 가능하게 한다.

왜 지금인가: 엔터프라이즈 운영 관점

기업들은 이제 블로그 머릿기사 수준을 넘어 광고 다국어 현지화, UI 목업 자동화, 교육 자료 동적 생성 등 기능적 워크플로우로 이동 중이다. 이때 텍스트 렌더링 5% 오류도 배포를 가로막는다. GLM-Image는 오픈소스 중 처음으로 이 신뢰성 임계값을 넘겼다는 벤치마크 신호를 보이며, Nano Banana Pro의 호출당 과금·클라우드 제약과 달리 자체 호스팅으로 보안·데이터 레지던시 요구를 충족할 수 있다.

함정: 무거운 컴퓨트 요구

이중 모듈 아키텍처는 무겁다. H100 기준 2048×2048 한 장 생성에 약 252초가 소요되어, 최적화된 소형 디퓨전 모델보다 느리다. 다만 포토샵으로 수시간 들여 제작할 고가치 산출물이라면 이 지연은 수용 가능하다. Z.ai는 이미지당 0.015달러의 관리형 API도 제공해, H100 인프라 투자 전 GLM-Image의 역량을 손쉽게 시험할 수 있게 했다. 요약하면 GLM-Image는 지식 밀도 높은 생성 영역에서 오픈소스가 속도를 주도할 수 있음을 보여준다.

이 기사 공유하기