leangnews

2026년 01월 09일 14:04

MiroThinker 1.5: 30B로 1조급 에이전트 성능, 비용은 1/20

MiroThinker 1.5: 30B로 1조급 에이전트 성능, 비용은 1/20


기사 요약

  • MiroMind의 MiroThinker 1.5는 300억 파라미터로도 Kimi K2·DeepSeek급 에이전트형 연구 능력을 보여주며 추론 비용을 1/20로 낮췄다.
  • ‘사이언티스트 모드’와 시간민감형 학습 샌드박스를 통해 검증 가능한 추론 루프를 실행하고 환각을 줄이며 감사를 가능하게 한다.
  • 256k 컨텍스트와 세션당 최대 400회 툴 호출, vLLM·OpenAI 호환 API, MIT 라이선스로 기업 배포와 통합이 쉽다.

개요: MiroThinker 1.5, 소형 추론 모델의 분기점

가중치 공개형 소형 추론 모델이 급부상하는 가운데, 이 모델은 300억(30B) 파라미터로도 1조 파라미터급 경쟁작에 견줄 만한 에이전트형 연구 능력을 구현한다. 고가의 프런티어 API 호출과 저성능 로컬 모델 사이에서 선택을 강요받던 기업에, 장기 툴 사용과 다단계 추론에 특화된 제3의 경로를 제시한다. 산업 전반의 흐름이 특화형에서 범용 에이전트로 이동하는 상황에서, 그동안 독점 모델에 한정됐던 역량을 공개 가중치로 제공한다는 점이 의미 있다.

검증 가능한 추론과 사이언티스트 모드

IT 팀의 프로덕션 적용을 가로막는 최대 난제는 환각이다. MiroThinker 1.5는 불확실성 처리를 근본적으로 재설계한 사이언티스트 모드로 대응한다. 기억 기반 패턴으로 그럴듯한 답을 만들어내는 대신, 가설 수립→외부 근거 조회→불일치 식별→결론 수정→재검증의 루프를 실행하도록 훈련됐고, 출처 없는 고신뢰 출력에는 패널티를 준다. 결과적으로 답변과 함께 추론 과정과 참고 소스를 함께 제시해 금융·의료·법률 등 규제 산업에서 감사 가능성을 확보하며, 불확실할 때는 외삽보다 검증을 우선하도록 학습돼 ‘자신감 넘치는 환각’을 줄인다.

벤치마크와 비용: 30B로도 1조급 성능

이 프레임워크 아래에서 v1.5‑30B 모델은 매개변수가 최대 30배 큰 모델, 즉 1조 파라미터의 Kimi‑K2‑Thinking에 필적하는 성능을 보였다. 웹 리서치 역량을 측정하는 BrowseComp‑ZH에서는 69.8점을 기록해 오히려 앞섰다. 비용도 돋보인다. 30B 버전의 추론 비용은 호출당 최소 0.07달러로 Kimi‑K2‑Thinking의 약 1/20이며, 추론 속도 또한 빠르다. 한편 235B(전문가 혼합 MoE, 활성 파라미터 22B) 버전은 다수 검색‑에이전트 벤치마크에서 글로벌 상위권이며, 종합 에이전틱 검색 평가에서 DeepSeek V3.2, Minimax, GLM, Kimi‑K2와 대등하게 경쟁한다. 일부 지표에서는 Gemini 3 Pro에 근접하고, 파라미터 수 대비 GPT‑5급 시스템에 가까운 성능을 보인다. 핵심은 벤치마크 ‘점수 올리기’보다 전반적 경쟁력이며, 이 모델은 그 기준에서도 설득력이 있다.

확장된 툴 사용: 세션당 최대 400회 호출

모델은 최대 256,000 토큰 컨텍스트와 세션당 최대 400회의 툴 호출을 지원한다. 이는 대량 정보 수집과 통합, 교차검증을 수반하는 복잡한 연구 워크플로의 필수 요건으로, 단일 턴 Q&A가 아닌 자율 과업 완수를 지향하는 에이전틱 모델의 전형이다. 실무 적용 분야는 심층 리서치, 콘텐츠 파이프라인, 보고서 생성, NotebookLM과 유사한 팟캐스트형 출력 등으로 확장된다.

훈련 혁신: 시간민감형 샌드박스와 GRPO

전통적 모델 학습은 정적 데이터셋의 최종 결과를 아는 ‘신의 시점’으로 인해 사후편향이 생긴다. 시간민감형 학습 샌드박스는 훈련 시점 이전에 공개된 정보에만 접근하도록 제한해 미래 누설을 차단하고, 불완전한 정보 속에서 현실적으로 추론하도록 강제한다. 이 파이프라인은 감독 미세조정(SFT)과 검증 가능한 보상을 사용하는 강화학습을 결합하며, DeepSeek로 대중화된 GRPO(Group Relative Policy Optimization)를 채택해 ‘정확한 시점에 정확한 툴’을 고르도록 유도한다. 이는 정적 사실 회상보다 동적으로 변하는 상황을 다뤄야 하는 엔터프라이즈 사용 사례에 특히 적합하다.

배포와 라이선스: vLLM 호환, MIT 라이선스

배포 관점에서 하드웨어 요구는 여전히 무시할 수 없다. 30B 모델은 상당한 GPU 메모리를 필요로 해 소형 장비에선 제약이 있을 수 있다. 반면 호환성은 강점이다. MiroThinker 1.5는 vLLM 서버에서 OpenAI 호환 API 엔드포인트로 동작해 기존 툴체인과 함수 호출 워크플로에 손쉽게 대체 투입된다. 두 모델 크기 모두 허용적인 MIT 라이선스로 Hugging Face에 공개되어 있으며, 온라인 데모로 바로 평가할 수 있어 사내 배포와 파인튜닝의 장벽을 크게 낮춘다.

큰 그림: 파라미터 스케일링에서 인터랙티브 스케일링으로

업계는 ‘큰 모델=더 나은 실성능’이라는 전통적 스케일링 법칙의 한계를 마주하고 있다. 다수 벤치마크가 포화되며, 추상적 추론력보다 경제적 유용성 중심의 평가로 무게가 옮겨간다. MiroMind는 파라미터 확대 대신 도구 상호작용을 심화해 역량을 끌어올리는 인터랙티브 스케일링에 베팅한다. 이 접근이 옳다면, 비싼 프런티어 API에 의존하지 않는 인프라에서도 정교한 에이전트를 구현할 수 있다. 창업자 Tianqiao Chen과 연구자 Jifeng Dai는 상호작용을 통해 사고하는 ‘네이티브 인텔리전스’를 지향한다고 밝힌다. 기업이 비용‑성능 절충을 고민할 때, 암기보다 ‘연구하는 법’을 배운 모델이 더 큰 가치를 줄 수 있다.

이 기사 공유하기