leangnews

2025년 12월 04일 12:02

작고 영리한 데이터로 다중모달 추론을 끌어올린 OpenMMReasoner

작고 영리한 데이터로 다중모달 추론을 끌어올린 OpenMMReasoner


기사 요약

  • MiroMind AI와 중국 대학 연구진은 SFT와 RL의 2단계 학습으로 다중모달 추론 성능을 크게 높인 오픈소스 프레임워크 OpenMMReasoner를 공개했다.
  • 정답 다양화·도메인 믹싱으로 확장한 SFT(874K)와 과도한 사고를 억제하는 보상으로 학습한 RL(74K)을 통해, 더 적고 질 높은 데이터로 선도 모델을 능가했다.
  • 7B 모델까지 전면 공개되어 재현성과 추적성이 높고, 기업은 로컬 배치·지연 감소·토큰 비용 절감·맞춤 미세튜닝·벤더 종속 최소화의 이점을 얻는다.

OpenMMReasoner가 제시한 투명한 다중모달 추론 레시피

최근 검증 가능한 보상을 활용한 강화학습(RLVR)이 대형 언어모델의 추론력을 끌어올리자, 연구진은 이를 대형 다중모달 모델(LMM)에도 확장했다. 그러나 데이터 큐레이션과 학습 파이프라인의 불투명성이 재현성을 가로막아 왔다. OpenMMReasoner는 전 과정을 공개하고 재현 가능한 절차로 설계된 오픈소스 레시피로, 텍스트·이미지 결합 과제에서 신뢰성과 강건성을 높인다.

두 단계 학습 개요: SFT와 RL

프레임워크는 먼저 감독 미세튜닝(SFT)으로 토대를 다지고, 이어 강화학습(RL)로 체계적 사고 과정을 유도한다. 이 단계적 접근은 최종 답만 맞히는 대신, 중간 추론 단계를 명시적으로 탐색하게 해 일관성과 정확도를 동시에 강화한다.

SFT 단계: 데이터 정제, 정답 다양화, 도메인 믹싱

연구진은 공개 데이터에서 약 10만3천개의 원시 질의-응답을 수집한 뒤, Qwen3-VL-235B-Instruct로 선택 문항에 고품질 추론 흔적을 증류했다. 각 문항에 대해 검증된 다중 추론 경로를 생성해 데이터셋을 58만3천 샘플로 확장했고, 수학 추론 도메인을 섞는 도메인 믹싱까지 더해 최종 SFT 데이터셋을 87만4천 개로 구축했다. 이 정교한 SFT 레시피는 OpenMMReasoner의 성능 토대를 이룬다.

RL 단계: 합성 보상과 '과도한 사고' 페널티

두 번째 단계인 RL은 과학·수학·퍼즐 등에서 엄선한 7만4천 샘플로 진행된다. 정답의 정확성과 출력 형식 일관성을 함께 고려하는 합성 보상 함수를 사용하고, 불필요하게 긴 추론을 억제하는 페널티를 도입해 효율을 높였다. 또한 '추론 예산(reasoning budget)'을 적정 수준으로 제한해 성능과 비용의 균형을 맞췄다.

데이터 효율과 성능: 작은 모델, 큰 성과

이 레시피로 Qwen2.5-VL-7B-Instruct를 미세튜닝한 결과, Open Vision Reasoner(OVR) 등 최신 기법을 다양한 벤치마크에서 안정적으로 상회했다. SFT만으로도 작은 학습량 대비 높은 기준선을 세웠고, 이후 RL이 성능을 더 예리하고 안정적으로 다듬어 WeMath, MathVerse, MathVista 등에서 최고 수준을 기록했다. 이러한 결과는 OpenMMReasoner가 '작고 질 높은 데이터'로도 강력한 다중모달 추론을 구현함을 보여준다.

멀티모달에서 텍스트로의 역량 전이

연구진은 다중모달 추론력이 향상될수록 순수 텍스트 영역(특히 수학)에서의 성능도 점진적으로 개선되는 현상을 관찰했다. 이는 한 모달리티에서 습득한 논리 능력이 다른 모달리티로 이전될 수 있음을 시사하며, 향후 비디오·오디오로의 확장 가능성도 제시한다.

기업을 위한 활용 가이드

OpenMMReasoner와 7B 모델을 포함한 전 자산은 오픈소스로 공개되어, 데이터 추적성과 파이프라인 재현성을 요구하는 엔터프라이즈 환경에 적합하다. 로컬 배치로 지연을 줄이고, 긴 사고 사슬에서 발생하는 토큰 비용을 낮추며, 데이터 통제권을 유지한 채 다운스트림 업무에 맞춘 미세튜닝이 가능하다.

도메인 데이터가 적을 때의 실전 전략

기업은 보유 데이터에서 우선 정답 다양성을 늘리고, 이후 도메인 믹싱으로 일반 추론 레시피에 통합하는 전략을 취할 수 있다. 이 접근은 수백만 샘플 없이도 범용 추론력을 확보하면서 산업별 과제에 빠르게 적응하도록 돕는다. OpenMMReasoner의 공개 레시피는 그러한 파이프라인의 청사진이 된다.

토큰 효율성과 추론 예산 설정

추론 단계를 무작정 길게 허용하면 비용과 지연이 증가한다. 연구 결과, 더 작은 추론 예산으로도 동등하거나 더 나은 정확도를 달성할 수 있어 비용 효율적 배포에 유리하다. 이러한 원칙은 OpenMMReasoner를 실제 서비스에 적용할 때 운영 비용과 품질을 동시에 관리하는 데 핵심 지침이 된다.

이 기사 공유하기