leangnews
Command Palette
Search for a command to run...
2026년 02월 12일 11:01
MIT의 SDFT로 LLM에 새 기술 학습하되 기존 역량 유지
기사 요약
- 기업용 LLM에 자가 증류 미세조정(SDFT)을 적용하면 보상함수 없이도 시연과 자체 시도를 통해 새 능력을 익힙니다.
- 실험에서 SDFT는 과학 질의응답, 도구 사용, 의료 추론 등에서 SFT보다 높은 성능을 보이며 망각을 크게 줄였습니다.
- 하나의 모델이 시간에 따라 여러 기술을 누적해도 초기 과제 성능이 떨어지지 않아 운영 비용과 복잡도를 낮출 수 있습니다.
개요: SDFT로 지속학습의 난제에 답하다
MIT, Improbable AI Lab, ETH 취리히 연구진은 자가 증류 미세조정(SDFT) 기법을 통해 대규모 언어모델이 새 지식과 기술을 익히면서도 기존 능력을 잊지 않도록 만드는 방법을 제안했다. 현대 LLM의 문맥 내 학습(ICL) 능력을 활용해, 시연 데이터와 모델 스스로 생성한 시도를 결합해 학습하며, 강화학습의 보상함수 없이도 온폴리시(자기 생성 데이터 기반) 학습의 이점을 살린다. 엔터프라이즈 환경에서는 하나의 모델이 시간이 지나며 여러 역량을 축적해도 초기 과제 성능이 후퇴하지 않아, 부서별 별도 모델 유지 부담을 줄이고 비용 효율을 높일 수 있다.
지속학습의 과제와 온·오프폴리시 학습
일단 배포된 LLM은 파라미터가 고정되어 경험으로 개선되지 않는다. 산업계가 원하는 것은 사람처럼 경력 전반에 걸쳐 지식을 누적하는 ‘지속학습’이다. 이상적인 경로는 모델이 스스로 만든 데이터에서 피드백을 얻는 온폴리시 학습이지만, 이는 대개 명시적 보상함수를 필요로 하는 강화학습(RL)에 의존한다. 수학·코딩처럼 정답이 뚜렷한 과제에는 유리하나, 법률 문서 작성·회의 요약 등 현실 업무에서는 보상 정의가 어렵다. 반면 고정 시연 데이터로 모방 학습하는 SFT는 오프폴리시 특성 탓에 분포 밖 사례 일반화가 약하고, 새 과제를 배우는 과정에서 과거 능력을 잃는 ‘치명적 망각’이 두드러진다.
SDFT 작동 방식
교사-학생 루프와 문맥 내 학습(ICL)
SDFT는 단일 모델 안에 교사와 학생 역할을 구성하는 ‘증류’를 사용한다. 동결된 교사 모델은 질의와 전문가 시연을 함께 받아 ICL로 정답과 추론 과정을 도출한다. 학생 모델은 질의만 보고 실제 배포 상황을 모사해 응답을 생성하고, 교사는 시연 기반 피드백을 제공한다. 학생은 교사 분포에 맞추도록 파라미터를 업데이트하며, 이렇게 자가 상호작용을 통해 온폴리시 학습 루프가 형성된다.
보상함수 없이 추론 경로 교정
감독 신호는 정적인 데이터셋이 아니라 모델의 상호작용에서 나오므로 외부 보상 없이도 추론 경로를 교정할 수 있다. 이 접근은 RL이 신호를 얻기 어려운 ‘완전히 새로운 지식’(예: 특정 기업 프로토콜, 신제품 정보)에도 효과적이다. 연구팀의 표현대로, 기반 모델이 전혀 모르는 주제는 시도만으로는 올바른 신호를 받기 어렵지만, SDFT는 시연이 주는 문맥을 교사가 해석해 학생에게 학습 신호로 변환한다.
SDFT 성능 검증
과학 Q&A 성능과 일반 능력 보존
오픈 가중치 Qwen 2.5 기반 실험에서, 과학 질의응답 벤치마크 정답률은 SFT 66.2% 대비 SDFT 70.2%로 향상됐다. 더 중요한 점은 치명적 망각 억제다. SFT로 과학 과제를 학습하면 일반 질의(논리·인문 등) 성능이 붕괴했지만, 자가 증류 미세조정(SDFT) 모델은 과학 성능을 높이면서도 ‘기존 과제’ 점수를 64.5%로 안정적으로 유지했다.
지식 주입과 간접 추론
연구진은 가상의 ‘2025년 자연재해’ 데이터로 지식 주입을 시험하고, “2025년 홍수로 어떤 국가가 인도적 지원이 필요했을까?” 같은 간접 추론을 평가했다. SFT는 사실 암기에 치우쳐 추론에 약했지만, 자가 증류 미세조정(SDFT) 모델은 훈련 중 논리를 내재화해 동일 과제에서 98%를 기록했다.
순차 학습과 모델 통합 효과
과학, 도구 사용, 의료 추론을 순차적으로 학습시키는 실험에서, 표준 모델은 새로운 기술을 익힐수록 이전 기술을 잃는 진동을 보였다. 반면 SDFT는 성능 퇴행 없이 세 가지 기술을 누적했다. 이는 여러 태스크별 어댑터를 따로 운영하는 ‘모델 동물원’ 문제를 완화하고, 단일 모델로 기업 전반의 요구를 충족해 추론 비용을 낮출 가능성을 시사한다.
한계와 가용성
계산 자원과 모델 크기 요건
자가 증류 미세조정(SDFT)은 훈련 중 온라인 응답 생성(롤아웃)이 필요해 표준 파인튜닝 대비 약 4배 느리고, 연산량(FLOPs)은 약 2.5배 크다. 다만 지식 보존이 좋아, 치명적 망각을 복구하기 위한 고비용의 재학습 파이프라인을 피할 수 있다는 점이 상쇄 이점으로 제시된다. 또한 충분한 ICL 역량을 지닌 모델이 필요하며, 최신 아키텍처 기준 대략 40억 파라미터급에서 안정적이다. 소형 모델의 급속한 개선으로 10억 파라미터급 지원 가능성도 제기됐다.
오픈소스와 생태계 통합
SDFT 코드는 GitHub에 공개되어 기존 학습 워크플로에 통합 가능하다. 훈련 파이프라인은 RL과 유사하게 온라인 응답 생성을 요구하며, Hugging Face의 TRL(Transformer Reinforcement Learning) 라이브러리 통합 작업이 진행 중이다(개발자용 PR 공개).
실제 적용 예시
기업 도메인 특화 SDFT 체크리스트
도메인 정의와 데이터 범위 확정(예: HR, 법무, 고객지원) — 전문가 시연 수집 및 품질 점검 — 문맥 내 학습(ICL) 예시 설계 — 개인정보·규정 등 신규 지식 주입 항목 선별 — 오프폴리시 SFT 대비 SDFT의 목표 지표(정확도, 이전 과제 유지율) 설정 — 온라인 응답 생성 비용 추산과 인프라 계획 — 안전성·거버넌스 평가 루프 포함.
SDFT 적용 프로세스 단계별 안내
1) 기준 모델 동결(교사)과 학습 가능 사본(학생) 준비 → 2) 질의·시연 페어 구성 및 ICL 프롬프트 설계 → 3) 학생의 온폴리시 응답 생성과 교사 피드백 수집 → 4) 학생을 교사 분포에 맞추는 업데이트 반복 → 5) 이전 과제 회귀 테스트로 치명적 망각 점검 → 6) 지식 주입·추론 과제 교차 검증 → 7) 추론 비용·지연(Latency) 기준 만족 시 단계적 배포 및 지속 모니터링. 자가 증류 미세조정(SDFT)을 통해 단일 모델로 다중 기술을 순차 누적하면서도 기본 상식과 일반 추론 능력을 안정적으로 보존할 수 있다.