leangnews

2025년 11월 09일 09:00

문샷AI Kimi K2 Thinking, 오픈소스로 주요 벤치마크 선두

문샷AI Kimi K2 Thinking, 오픈소스로 주요 벤치마크 선두


기사 요약

  • 중국 스타트업 문샷AI가 오픈소스 모델 Kimi K2 Thinking을 공개해 추론·코딩·에이전트 벤치마크에서 GPT‑5와 Claude 4.5를 앞섰다.
  • 1조 파라미터 MoE(추론 시 320억 활성)와 INT4 QAT로 장거리 추론과 200~300단계 도구 호출을 처리하며, BrowseComp 60.2%·SWE‑Bench 71.3% 등의 성능을 기록했다.
  • 수정 MIT 라이선스와 저렴한 토큰 요금으로 기업은 개방형 대안을 채택해 가중치·데이터 통제를 유지하면서 최상위 추론 성능을 활용할 수 있다.

오픈소스 AI의 분수령: Kimi K2 Thinking

미국 OpenAI의 대규모 투자 전략에 대한 우려가 커지는 가운데, 중국의 문샷AI가 완전 오픈소스 모델 Kimi K2 Thinking을 공개했다. 이 모델은 추론, 코딩, 에이전틱 도구 사용 벤치마크에서 OpenAI GPT‑5, Anthropic Claude Sonnet 4.5(Thinking 모드), xAI Grok‑4를 여러 항목에서 앞서며 오픈 모델 경쟁력을 한 단계 끌어올렸다.

접근 경로와 오픈 릴리스

개발자는 platform.moonshot.ai와 kimi.com에서 Kimi K2 Thinking을 사용하고, 가중치와 코드는 Hugging Face에서 내려받을 수 있다. 채팅, 추론, 멀티‑툴 워크플로 API가 포함되며, 자체 사이트와 Hugging Face Space에서도 체험이 가능하다.

수정 MIT 라이선스 핵심 조항

문샷AI는 Kimi K2 Thinking을 Hugging Face에서 Modified MIT License로 배포했다. 상업적 이용과 2차 저작을 전면 허용하되, 월간 활성 사용자 1억 명 초과 또는 월 매출 2천만 달러 이상인 배포자는 제품 UI에 ‘Kimi K2’를 눈에 띄게 표기해야 한다. 대부분의 연구·엔터프라이즈 활용에서는 가벼운 출처 표기 요구에 그쳐, 표준 MIT의 자유도를 사실상 유지한다.

모델 구조와 핵심 능력

Kimi K2 Thinking은 약 1조 파라미터의 희소 Mixture‑of‑Experts(MoE) 구조로, 추론 시 320억 파라미터가 활성화된다. 장거리 추론과 구조화된 도구 사용을 결합해 사람 개입 없이도 200~300단계의 연속 도구 호출을 수행한다.

주요 벤치마크 성과와 비교

문샷AI가 공개한 테스트에 따르면, Humanity’s Last Exam(HLE) 44.9%, BrowseComp 60.2%, SWE‑Bench Verified 71.3%, LiveCodeBench v6 83.1%, Seal‑0 56.3%를 기록했다. 동일한 벤치마크 묶음에서 GPT‑5와 Claude 4.5(Thinking)를 상회했으며, 특히 BrowseComp에서는 60.2%로 GPT‑5의 54.9%와 Claude 4.5의 24.1%를 뚜렷하게 앞섰다. GPQA Diamond에서는 85.7%로 GPT‑5(84.5%)를 근소하게 앞질렀고, AIME 2025·HMMT 2025 같은 수학 추론 과제에서도 대등한 성능을 보였다.

불과 며칠 전 공개돼 ‘오픈소스 LLM 신흥 강자’로 평가받은 MiniMax‑M2(τ²‑Bench 77.2, BrowseComp 44.0, FinSearchComp‑global 65.5, SWE‑Bench Verified 69.4)도 Kimi K2 Thinking이 전반적으로 추월했다.

에이전틱 추론과 도구 사용

이 모델의 특징은 응답 전에 중간 논리를 담는 보조 필드 reasoning_content를 출력해 추론 과정을 투명하게 드러낸다는 점이다. 문샷AI의 레퍼런스 구현은 날짜·웹검색 도구를 호출하고 수집한 내용을 분석해 구조화된 ‘일간 뉴스 리포트’를 자율적으로 작성하는 전 과정을 시연한다. 이러한 엔드‑투‑엔드 자율성은 수백 단계에 걸친 계획‑검색‑실행‑증거 통합을 가능하게 하며, 최신 에이전트형 AI의 작동 방식을 잘 보여준다.

성능·비용과 접근성

1조 파라미터급 규모에도 불구하고 런타임 비용은 낮게 책정됐다. 입력 토큰은 캐시 히트 시 100만 토큰당 0.15달러, 캐시 미스 시 0.60달러, 출력 토큰은 2.50달러다. 이는 MiniMax‑M2의 입력 0.30달러·출력 1.20달러 대비 경쟁력이 있고, GPT‑5(입력 1.25달러·출력 10달러)와 비교하면 한 자릿수 배수 차이로 저렴하다.

MiniMax‑M2와의 기술 비교

두 모델 모두 희소 활성화 기반 MoE로 효율을 꾀하지만, Kimi K2 Thinking은 더 많은 전문가를 활성화(320억 vs 100억)하고 INT4 양자화 인지 학습(QAT)을 적용해 정밀도 저하 없이 추론 속도를 두 배가량 끌어올렸다고 밝힌다. 256k 토큰 컨텍스트에서 긴 ‘생각 토큰’을 늘리고 도구 호출 횟수를 확장하는 테스트‑타임 스케일링만으로도 성능이 유의미하게 상승하는 점도 특징이다.

기술적 전망

네이티브 INT4 추론과 256k 컨텍스트를 지원하며, 병렬 궤적 집계(‘헤비 모드’)와 추론 작업에 최적화된 MoE 라우팅을 통합했다. 실제로는 코드 컴파일‑테스트‑수정, 검색‑분석‑요약과 같은 복잡한 계획 루프를 수백 회 도구 호출 동안 안정적으로 유지해 BrowseComp와 SWE‑Bench에서의 우위를 뒷받침한다.

산업적 함의와 거시 환경

고급 영역에서 오픈과 클로즈드 모델의 격차가 사실상 해소되면서, 기업은 가중치·데이터·컴플라이언스 통제를 유지한 채 GPT‑5급 추론을 제공하는 개방형 대안을 배치할 수 있게 됐다. 한편, OpenAI의 1.4조 달러 규모의 장기 연산·데이터센터 커밋과 관련한 재무 지속가능성 논란, 정부 보증 논의 등은 AI 자본 집약의 위험성을 재점화했다. 이러한 배경 속에서 문샷AI와 MiniMax의 오픈웨이트 공개는 미국 빅테크·프로바이더들에게 투자 규모와 수익 경로를 스스로 입증하라는 압력을 높인다.

기업을 위한 시사점

MiniMax‑M2가 급부상한 지 불과 수 주 만에 Kimi K2 Thinking은 다수의 추론·에이전트 벤치마크에서 GPT‑5와 Claude 4.5까지 제치며 선두로 올라섰다. 이제 최상위 성능이 대규모 데이터센터가 아닌, 아키텍처와 양자화 최적화를 통해서도 달성될 수 있음을 시사한다. 연구자와 엔터프라이즈는 투명한 추론 흔적을 점검하고 도메인별 에이전트를 미세조정할 수 있는 개방형 선택지를 손에 넣었다.

이 기사 공유하기