leangnews

2026년 02월 12일 15:02

z.ai, 오픈소스 GLM-5 공개…환각률 최저·새 RL ‘슬라임’로 에이전트 성능 도약

z.ai, 오픈소스 GLM-5 공개…환각률 최저·새 RL ‘슬라임’로 에이전트 성능 도약


기사 요약

  • 중국 z.ai가 오픈소스 GLM-5를 공개해 AA-Omniscience 지수에서 -1을 기록, 환각률 최저와 지식 신뢰도 1위를 달성했다.
  • 744B 파라미터·MoE·DSA·200K 컨텍스트와 신규 비동기 RL 인프라 ‘slime(APRIL 포함)’로 대규모 에이전트 학습·추론 효율을 높였다.
  • .docx/.pdf/.xlsx를 직접 생성하는 Agent Mode와 공격적 가격으로 엔터프라이즈 공략에 나섰지만, 하드웨어·거버넌스·지정학 리스크가 과제로 남는다.

개요: GLM-5가 여는 ‘실행 중심’ 오픈소스 프런티어

중국 AI 스타트업 주파이(z.ai)가 오픈소스 MIT 라이선스의 대규모 언어모델 GLM-5를 공개했다. 독립 벤치마크인 Artificial Analysis Intelligence Index v4.0에서 AA-Omniscience 지수 -1을 기록해, 구글·오픈AI·앤트로픽 등 경쟁사를 제치고 ‘지어내지 않고 모르면 보류한다’는 기준의 지식 신뢰도 1위를 차지했다. GLM-5는 엔터프라이즈 환경을 겨냥해 실제 업무 문서 포맷으로 결과물을 내놓는 Agent Mode를 기본 제공하며, 합리적인 토큰 단가로 대규모 배치를 노린다.

기술: 에이전트 효율을 위한 확장과 ‘slime’

Mixture-of-Experts 확장과 비용 절감

전작(355B) 대비 GLM-5는 744B 파라미터로 대폭 확장됐고, MoE 구조에서 토큰당 40B가 활성화된다. 사전학습 데이터도 28.5T 토큰으로 증대됐다. DeepSeek Sparse Attention(DSA)을 통합해 200K 컨텍스트를 유지하면서도 메모리·연산 비용을 줄여 대규모 배치와 롱컨텍스트 업무에 유리하다.

비동기 RL 인프라 ‘slime’와 APRIL

대규모 강화학습의 병목(롱테일·락스텝)을 해소하기 위해 z.ai는 비동기 RL 인프라 ‘slime’을 구축했다. 슬라임은 궤적(trajectory)을 독립적으로 생성해 미세한 반복 개선을 가능케 하고, Active Partial Rollouts(APRIL) 등 시스템 최적화를 통해 RL 시간의 90% 이상을 차지하던 생성 병목을 크게 줄인다. 프레임워크는 Megatron-LM 기반 고성능 트레이닝 모듈, SGLang과 커스텀 라우터를 쓰는 롤아웃 모듈, 프롬프트 초기화·롤아웃 저장을 맡는 중앙 Data Buffer의 3부 구조다. 검증 가능한 적응형 환경과 멀티턴 컴파일 피드백 루프를 통해 단순 대화형을 넘어 장기 수평의 시스템 엔지니어링으로의 전환을 뒷받침한다.

업무 생산성: Agent Mode와 문서 자동화

엔드투엔드 문서 생성

GLM-5는 프롬프트나 원천 자료를 받아 전문 문서로 바로 변환한다. .docx·.pdf·.xlsx 등 실무 포맷을 즉시 활용 가능한 형태로 산출하며, 재무 보고서·후원 제안서·복잡한 스프레드시트 등 엔터프라이즈 워크플로에 곧바로 통합된다. 고수준 목표를 실행 가능한 하위 과업으로 분해하고, 사람은 품질 게이트를 정의하고 AI는 실행을 담당하는 ‘Agentic Engineering’ 운영 모델을 지원한다.

성능과 가격

벤치마크 성과

Artificial Analysis 기준, GLM-5는 오픈소스 최강으로 평가되며 최근 공개된 중국 경쟁사 Moonshot의 Kimi K2.5를 앞섰다. SWE-bench Verified에서 77.8점을 기록해 Gemini 3 Pro(76.2)를 상회하고 Claude Opus 4.6(80.9)에 근접했다. 또 가상 비즈니스 운영 시뮬레이션인 Vending Bench 2에서 오픈소스 모델 중 최상위(최종 잔액 $4,432.12)를 차지했다. 이번 공개는 OpenRouter에서 코딩 벤치마크를席권했던 스텔스 모델 ‘Pony Alpha’의 배후가 지푸AI(Zhipu AI)였다는 소문을 사실상 확인해준다는 평가도 있다.

공격적 가격 정책

OpenRouter 기준(2026-02-11), 입력 100만 토큰당 약 $0.80~$1.00, 출력 100만 토큰당 $2.56~$3.20으로 책정됐다. 이는 Claude Opus 4.6의 $5/$25 대비 입력 약 6배, 출력은 거의 10배 저렴해, 최상급 벤치마크 성능을 고려할 때 ‘가성비가 뛰어난’ 선택지로 부상한다.

리스크와 도입 판단

보안·거버넌스 고려사항

MIT 라이선스와 공개 가중치는 벤더 종속을 피하려는 기업에 전략적 이점을 준다. 반면 744B 규모의 모델은 클라우드 또는 온프레미스 GPU 클러스터 등 막대한 하드웨어가 필요하다. 또한 중국 기반 연구실의 플래그십 모델을 도입할 때는 데이터 상주·출처 검증 등 규제 산업에서의 지정학·준법 리스크를 점검해야 한다. 에이전트가 앱·파일 전반을 자율적으로 조작하는 단계로 이동하면서, 에이전트 전용 권한 체계와 사람 개입형 품질 게이트가 미흡하면 자율 오류가 기하급수적으로 늘 수 있다. 일부 초기 사용자는 GLM-5가 목표 달성력은 뛰어나지만 상황 인식이 떨어지고 경험을 활용하지 않는다는 우려(‘페이퍼클립 극대화’ 위험)를 제기했다.

누가 GLM-5를 선택해야 하나

단순 코파일럿을 넘어 ‘자율형 오피스’를 구축하려는 조직, 레거시 백엔드 리팩터링이나 24×7 셀프힐링 파이프라인이 필요한 엔지니어 팀에 적합하다. 서구 연구실이 ‘깊은 사고(Thinking)’에 초점을 맞추는 동안, z.ai는 ‘실행과 스케일’에 최적화하고 있다. GLM-5를 채택하는 기업은 더 싼 모델을 사는 것이 아니라, “두 번 말하지 않아도 프로젝트를 끝내는” 실행형 AI에 베팅하는 셈이다.

이 기사 공유하기