leangnews

2026년 01월 28일 12:01

문샷 Kimi K2.5, 에이전트 스웜 내장해 기업형 AI 개발 가속

문샷 Kimi K2.5, 에이전트 스웜 내장해 기업형 AI 개발 가속


기사 요약

  • 중국 문샷AI가 오픈소스 Kimi K2를 업그레이드해 시각·코딩 겸용 모델 Kimi K2.5를 공개, 에이전트 스웜 오케스트레이션을 내장했다.
  • HLE 50.2%(도구 포함), SWE-bench Verified 76.8% 등에서 경쟁 모델을 앞서거나 근접하며, 멀티모달 코딩·자율 시각 디버깅을 지원한다.
  • 공격적 API 가격과 ‘수정 MIT’ 라이선스로 대규모 상업 서비스에 UI 표기를 요구하며, 엔터프라이즈에는 스케일-아웃형 에이전트 구축을 제안한다.

개요

문샷AI는 오픈소스 Kimi K2를 기반으로 코딩·비전 겸용 구조를 갖춘 Kimi K2.5를 선보였다. 이 모델은 중앙 오케스트레이터 없이 에이전트들이 서로 작업을 넘겨받는 에이전트 스웜 방식을 지원하며, 텍스트와 이미지를 모두 입력으로 받아 UI·인터랙션 등 시각 중심 코딩에 활용할 수 있다. K2.5의 파라미터 수는 비공개지만, 기반이 된 K2는 MoE 구조로 총 1조 파라미터·활성 320억 파라미터를 갖췄다.

Kimi K2.5의 에이전트 스웜 오케스트레이션

기업은 K2.5를 통해 ‘크게 키우는(scale-up)’ 대신 ‘여럿을 병렬로 두는(scale-out)’ 전략을 적용할 수 있다. 모델은 최대 100개의 하위 에이전트를 스스로 지휘하며, 최대 1,500회의 도구 호출을 병렬로 실행한다. 문샷AI는 복잡한 과업을 병렬 처리해 하루 이상 걸리던 업무를 수분 내로 단축하는 것이 핵심 가치라고 강조한다. 다만 일부 기업은 모델 내장형 에이전트 지휘 대신 Salesforce, AWS Bedrock, IBM 등 외부 플랫폼의 관측·관리·모니터링 도구로 다양한 LLM을 조합하는 전략을 선호하기도 한다.

Kimi K2.5의 멀티모달 코딩·시각 디버깅

이 모델은 스크린샷·화면 녹화 등 시각 입력만으로도 레이아웃과 인터랙션을 이해해 웹사이트 코드를 재구성한다. 문샷AI는 이를 ‘바이브 코딩’ 경험이라고 부르며, VSCode·Cursor 등 IDE와 연동되는 터미널 기반 도구 ‘Kimi Code’에 기능을 통합했다. 모델은 렌더링 결과를 스스로 확인하고 문서를 참조해 레이아웃 밀림·미관 오류를 반복 수정하는 ‘자율 시각 디버깅’을 지원한다.

벤치마크와 채택 동향

Kimi K2.5는 Humanity’s Last Exam(HLE)에서 50.2%(도구 포함)를 기록해 OpenAI GPT-5.2(xhigh)와 Claude Opus 4.5를 앞섰다. SWE-bench Verified에서는 76.8%로 최상급 코딩 성능을 보였으며, 해당 지표에서는 GPT-5.2(80)와 Opus 4.5(80.9)가 근소 우위다. 문샷AI는 9~11월 사이 Kimi K2·Kimi K2 Thinking 사용자 수가 170% 증가했다고 밝혔다.

API 가격 정책

문샷AI는 K2.5 API를 이전 K2 Turbo 대비 대폭 인하했다. 입력 토큰은 100만 토큰당 $0.60, 캐시된 입력은 100만 토큰당 $0.10, 출력은 100만 토큰당 $3로 책정했다. 특히 캐시 입력 단가가 낮아, 다수 하위 에이전트와 대형 컨텍스트를 유지하는 ‘Agent Swarm’ 시나리오에서 비용 효율이 크다.

수정 MIT 라이선스 핵심

오픈소스로 배포되지만 ‘수정 MIT’ 조항을 포함한다. 월간 활성 사용자(MAU) 1억 명 초과 또는 월 매출 2,000만 달러 초과 서비스·제품에서 소프트웨어(또는 파생물)를 사용하면 UI에 ‘Kimi K2.5’를 눈에 띄게 표기해야 한다. 이는 대부분의 개발자·스타트업에는 자유를 유지하면서도, 초대형 사업자의 화이트라벨링을 방지하려는 장치다. 완전한 ‘오픈소스’라 보긴 어렵지만, 7억 MAU 이상에 별도 엔터프라이즈 라이선스를 요구한 메타 Llama 계열보다는 완화된 편이다.

엔터프라이즈에 주는 의미

Kimi K2.5는 스웜 오케스트레이션을 모델에 직접 내장해, 소수 인력으로도 수십~수백 개의 자율 하위 에이전트를 한 번의 프롬프트처럼 지휘하는 ‘합성 워크포스’를 제공한다. 이는 인력 한계와 복잡한 파이프라인 간 딜레마를 해소하고, 대용량 컨텍스트 처리 비용을 일상적 수준으로 낮춘다. 궁극적으로 팀의 생산성 한계는 ‘키보드를 치는 손의 수’가 아니라, ‘스웜을 안무하는 역량’으로 이동한다.

이 기사 공유하기