사카나 AI의 M2N2: 재학습 없이 모델을 진화적으로 결합하는 법

작성일시 2025년 09월 03일 22:02265조회수

Table of Contents

기사 요약

일본 사카나 AI의 M2N2는 고가의 파인튜닝 없이도 여러 모델의 강점을 결합해 성능을 높이는 진화적 모델 병합 기법이다.
M2N2는 고정된 병합 경계를 없애고 다양성 경쟁과 상보성 기반 페어링을 활용해 더 넓은 탐색 공간에서 최적 조합을 찾는다.
LLM과 텍스트-이미지 생성 모델 등 다양한 영역에서 효과를 입증했으며, 기업에겐 비용·지연을 줄인 맞춤형 모델 구축 경로를 제시한다.

M2N2로 비싼 재학습 없이 모델 고도화

사카나 AI가 공개한 M2N2(Model Merging of Natural Niches)는 별도의 데이터나 그라디언트 업데이트 없이도 여러 전문 모델의 지식을 한 모델로 통합하는 진화적 M2N2 모델 병합 기법이다. 이 접근법은 LLM과 확산 기반 이미지 생성 모델 등 다양한 아키텍처에 적용 가능하며, 오픈소스 변종의 장점을 결합해 맞춤형 모델을 효율적으로 만든다.

모델 병합이란?

모델 병합은 다수의 전문 모델 파라미터를 동시 결합해 한 모델로 지식을 통합하는 방법이다. 파인튜닝처럼 원본 학습 데이터나 고비용의 그라디언트 계산이 필요하지 않고, 순전파만으로 작업할 수 있어 계산량과 비용을 크게 줄인다. 또한 데이터 균형 조정이 덜 필요하고, 새로운 작업을 학습하며 기존 능력을 잃는 ‘치명적 망각’을 완화한다.

M2N2는 어떻게 작동하나

유연한 분할점과 혼합 비율

M2N2는 레이어·블록 같은 고정 경계를 두지 않고, 유연한 ‘분할점’과 ‘혼합 비율’을 사용해 파라미터를 섞는다. 예를 들어 한 레이어의 30%는 모델 A, 70%는 모델 B에서 가져오는 식이다. 시드 모델 아카이브에서 두 모델을 선택해 분할점과 혼합 비율을 정하고 병합하며, 성능이 좋으면 아카이브에 편입해 점진적으로 더 복잡한 조합을 탐색한다. 이로써 M2N2 모델 병합은 계산 가능성을 유지하며 탐색 공간을 넓힌다.

경쟁을 통한 다양성 유지

정답지가 서로 다른 문제를 잘 맞출수록 합쳤을 때 더 강해지듯, 병합의 가치는 상보적 다양성에 있다. M2N2는 자원 경쟁을 시뮬레이션해 독자적 능력을 지닌 모델을 자연스럽게 선별·보존한다. 이런 ‘니치’ 전문가는 병합 가치가 높아, M2N2 모델 병합의 성능 향상을 견인한다.

상보성 기반 ‘흡인(Attraction)’ 페어링

단순히 상위 성능 모델끼리 합치지 않고, 한 모델이 어렵게 느끼는 데이터에서 다른 모델이 강점을 보일 때 높은 흡인 점수를 부여해 페어링한다. 이 휴리스틱은 탐색 효율과 최종 병합 모델의 품질을 동시에 끌어올린다.

적용 사례

MNIST 분류기: 스크래치에서의 진화

작은 신경망 분류기를 MNIST로 스크래치에서 진화시킨 실험에서 M2N2는 경쟁 기법 대비 큰 폭으로 테스트 정확도를 높였다. 다양한 강점을 보존하는 메커니즘이 효과적 병합을 가능케 했다.

LLM 결합: 수학+에이전트 능력

Llama 2 기반의 WizardMath-7B(수학 특화)와 AgentEvol-7B(에이전트 특화)를 병합해, GSM8K(수학)와 WebShop(웹 작업) 모두에서 강한 단일 에이전트를 얻었다. 이는 M2N2 모델 병합이 다기능 모델을 만드는 데 유효함을 보여준다.

확산 모델: 일본어·영어 이중언어 이미지 생성

일본어 프롬프트로 학습된 JSDXL과 영어 위주 Stable Diffusion 변종 3종을 결합해, 의미 이해와 포토리얼리즘이 향상된 동시에 일본어·영어 모두에서 고품질 이미지를 생성하는 ‘발현적 이중언어’ 능력이 나타났다.

엔터프라이즈 활용과 이점

이미 보유한 전문 모델들을 M2N2로 결합하면, 다중 모델을 동시에 돌리는 비용·지연 없이 단일 모델로 복합 능력을 제공할 수 있다. 예를 들어 설득형 세일즈에 특화된 LLM과 고객 반응을 해석하는 비전 모델을 합치면, 실시간 영상 피드백을 바탕으로 화법을 조정하는 에이전트를 구현할 수 있다.

앞으로: 모델 융합과 거버넌스 과제

연구진은 M2N2를 ‘모델 융합’의 큰 흐름 속에 위치시키며, 조직이 지속적으로 진화·병합되는 모델 생태계를 운영하는 미래를 그린다. 코드도 GitHub에 공개됐다. 다만 오픈소스·상용·자사 모델이 뒤섞인 대형 ‘병합 모델’ 환경에서 프라이버시, 보안, 컴플라이언스 같은 조직적 과제가 최대 난관이 될 수 있다. 어떤 모델을 안전하고 효과적으로 흡수할지에 대한 전략이 중요하다.