leangnews
Command Palette
Search for a command to run...
2026년 01월 30일 09:01
Kimi K2.5는 595GB ‘오픈’ 가중치, Reddit은 작은 모델을 원했다
기사 요약
- Moonshot AI가 Kimi K2.5 오픈 웨이트(약 595GB)를 공개한 직후 Reddit AMA에서 개발자들은 로컬에서 돌릴 수 있는 실사용급 작은 모델을 요구했다.
- 팀은 고품질 데이터 한계로 전통적 스케일링 효용이 줄고 있어 Agent Swarm 같은 테스트타임 스케일링과 강화학습 비중 확대를 해법으로 제시했다.
- 정체성 드리프트와 문체 변화, 디버깅 중심의 연구 현실이 드러났고, K3 세대에선 Linear Attention과 지속학습, 오케스트레이션 공개가 예고됐다.
개요: Kimi K2.5 공개와 Reddit AMA
Moonshot AI는 Kimi K2.5의 오픈 웨이트를 공개했고 파일 크기는 약 595GB에 달한다. 공개 직후 진행된 3시간 AMA에서 개발자들은 아키텍처와 학습법, 모델의 ‘영혼’까지 폭넓게 질문했지만 핵심은 언제, 어떻게 실제로 쓸 수 있느냐였다. Kimi K2.5는 주목을 받았지만 많은 개발자에게는 아직 ‘이론적 개방성’에 머물렀다.
개발자 요구: ‘오픈’보다 ‘사용 가능’
595GB 현실과 작은 모델 요청
스레드 초반 질문은 Kimi K2.5를 돌파구가 아니라 물류 문제로 다뤘다. 8B, 32B, 70B 등 지능 밀도가 좋은 소형 구간과, 보급형 GPU에 맞춘 코더 특화 모델을 요구하는 목소리가 컸다. Moonshot AI는 즉답을 피했지만 수요를 인정했고, 로컬 최적 약 100B 대신 다수 과제에서 ‘사용성 임계치’를 넘길 200B~300B 타협안을 거론했다. 개발자들은 ‘다소 작은’이 아닌 자신의 하드웨어에서 제대로 돌아가는 로드맵을 원했다.
스케일링 다음 단계: Agent Swarm과 RL
스케일링 한계와 테스트타임 스케일링
팀은 고품질 데이터 증가 속도가 연산 증가를 따라가지 못해, 인터넷 데이터로 다음 토큰 예측을 키우는 전통적 스케일링은 수익 체감 구간에 접어들었다고 진단했다. 대신 Kimi K2.5의 Agent Swarm처럼 최대 100개 서브에이전트를 병렬 조율하는 테스트타임 스케일링으로 추론 단계의 구조화 작업을 늘리고, 그 통찰을 강화학습으로 다시 접는 경로를 제시했다.
오케스트레이션 설계와 성능
Agent Swarm은 서브에이전트가 각자 작업 메모리를 갖고 결과만 오케스트레이터에 반환하도록 설계해 공용 컨텍스트의 ‘컨텍스트 로트’를 줄인다. 오케스트레이터는 각 서브에이전트의 토큰 예산을 배분하고, 병렬화 이점이 없을 땐 과감히 단일 경로를 택한다. 적합한 워크플로에서는 약 4.5배 속도 향상을 관측했으며, 엔터프라이즈 관점에서는 ‘깨끗한 컨트롤 플레인’과 ‘워커 출력 경계 설정’ 원칙에 가깝다.
강화학습 비중 확대
질의응답에서 팀은 광범위 사전학습(시스템 1) 대비 추론·행동을 보상으로 길들이는 강화학습(시스템 2) 연산을 계속 늘릴 것이라 밝혔다. 특히 에이전트 영역을 겨냥한 새로운 RL 목적함수 연구가 예고됐고, 이는 도구 사용과 과업 분해 능력의 품질을 좌우하되, 결정성·도구 남용·보상 정렬 간 트레이드오프를 동반할 수 있다.
품질과 정체성: ‘취향’과 프롬프트 거버넌스
정체성 드리프트와 시스템 프롬프트
일부 상황에서 모델이 스스로를 ‘Claude’라고 소개한다는 의혹에 대해, 팀은 빈 시스템 프롬프트에서는 사전학습 분포가 드러나는 ‘미정의 영역’으로 흐를 수 있다고 설명했다. 최신 인터넷 코딩 데이터를 업샘플링한 결정이 ‘Claude’ 토큰과의 연관성을 높였을 가능성도 언급했다. 조직은 적절한 시스템 프롬프트로 정체성 드리프트를 완화할 수 있으며, 이는 운영 위생에 가깝다고 강조했다.
문체 변화, 보상모델의 ‘혼’, 그리고 개인화
사용자들은 Kimi K2.5가 이전보다 표준적 ‘도움말 어시스턴트’ 톤으로 수렴했다고 지적했다. 팀은 버전이 바뀌면 성격이 달라질 수 있고 평가는 주관적이라며, 보상모델이 진화하면서 ‘글맛’을 일정하게 유지하기 어렵다고 밝혔다. 사용자 취향 상태를 저장해 출력을 조건화하는 개인화 가능성도 탐색 중이다.
연구 문화: 화려함 뒤의 ‘디버깅’
스케일링 사다리와 실패 관리
가장 강조된 단어는 디버깅이었다. Kimi Linear(선형 어텐션) 실험은 한때 스케일링 사다리 중간 단계에서 실패했고, 수개월의 혹독한 디버깅 끝에야 안정화됐다. 소규모에서 된 아이디어 다수가 큰 규모에서 무너지고, 통과하는 해법은 대개 단순·효율·수학적으로 단단하다는 교훈이 공유됐다.
로드맵: K3, Linear Attention, 지속학습
Kimi K3와 오케스트레이션 공개 계획
팀은 Kimi K3에 Linear Attention 계열의 연구를 포함할 가능성이 높다고 시사하며, K2.5 대비 대폭(최대 10배에 준하는) 개선을 예고했다. 또한 지속학습으로 장기 과업에서 에이전트의 효율을 높이고, Agent Swarm 오케스트레이션 스캐폴드는 안정화 후 공개할 계획이다. Kimi K2.5는 과도기적 기준점으로, 다음 세대 전환의 디딤돌이 된다.
핵심 시사점: 오케스트레이션이 곧 제품
- Kimi K2.5가 보여준 것은 파라미터보다 체계적 추론·도구 사용·서브에이전트 조율의 상품화다.
- 오픈 웨이트는 하드웨어 현실과 충돌한다. 로컬 우선 설계와 소형 모델 로드맵이 신뢰를 얻는다.
- 경쟁의 초점은 지능 수치에서 신뢰성으로 이동한다. 도구 호출 규율, 멀티에이전트 메모리 관리, ‘취향’ 보존이 채택을 좌우한다.