leangnews

2025년 11월 19일 12:02

Phi-4가 입증한 ‘데이터 퍼스트 SFT’의 힘: 14B로 대형 모델을 넘다

Phi-4가 입증한 ‘데이터 퍼스트 SFT’의 힘: 14B로 대형 모델을 넘다


기사 요약

  • 대규모 스케일 대신 데이터 퍼스트 SFT와 RL로 14B Phi-4가 대형 모델에 필적하는 추론 성능을 입증했다.

Phi-4가 보여준 데이터 퍼스트 SFT의 차별성

AI 엔지니어들은 종종 성능을 위해 파라미터와 데이터 규모를 키우지만, 최근에는 더 작고 효율적이며 초점이 분명한 모델의 부상이 두드러진다. Microsoft의 Phi-4는 1.4M 정선 프롬프트–응답 쌍으로 학습해, 데이터 퍼스트 SFT를 통해 14B 파라미터로도 대형 모델과 경쟁 가능한 추론력을 증명했다. 팀은 무작정 스케일업 대신, 모델 능력의 경계에서 배우기 좋은(Teachable) 예제를 가려 담고, 엄격한 데이터 큐레이션과 복제 가능한 SFT·RL 레시피를 제시했다.

왜 Phi-4가 돋보이는가

OpenAI o1-mini, Google Gemma, Alibaba Qwen3(8B·14B) 같은 소형 추론 모델이 확산되는 가운데, Phi-4는 ‘데이터 퍼스트 SFT’ 실험장으로 설계되어 누구나 따라 할 수 있는 스마트 데이터 플레이북을 공개했다. 각 주제(수학, 코드 등)는 개별적으로 튜닝한 뒤, 자동 검증이 가능한 형태로 합성 리라이트를 더해 결합했다. 이 투명한 문서화는 연구 결과를 엔터프라이즈 팀이 즉시 복제·평가 가능한 훈련 레시피로 전환한다.

데이터 퍼스트 철학: 적을수록 더 많이

전통적 추론 강화를 위한 대규모 데이터 스케일링과 달리, Phi-4는 엄선 데이터만으로 동등하거나 더 나은 결과를 보였다. 14B Phi-4는 AIME 2024에서 75.3%(o1-mini 63.6%), AIME 2025에서 62.9%(DeepSeek-R1-Distill-70B 51.5%), OmniMath 76.6%(Distill-70B 63.4%), GPQA-Diamond 65.8%(o1-mini 60.0%)를 기록했고, 어려운 수학(AIME)에서는 671B DeepSeek-R1에 근접했다. 핵심은 양보다 질을 고르는 데이터 퍼스트 SFT의 일관된 적용이다.

품질 우선 필터링: ‘스위트 스팟’만 남기기

일반 웹 데이터의 다수는 너무 쉽거나(학습 신호 없음) 너무 어려워(검증 불가) 학습에 부적합하다. Phi-4 팀은 강한 기준 모델(GPT-4 등)로 정답 키를 만들고, 약한 모델의 답과 비교해 견해 차가 충분한 문항만 유지한다. 쉬운 산술은 버리고, 지나치게 난해한 정리 증명도 제외하되, Phi-4가 틀리는 ‘적당히 까다로운’ 기하 문항은 남긴다. 이렇게 다단계 추론 중심의 예제를 엄선해 1.4M 샘플에 최대 학습 신호를 담았다.

독립 도메인 최적화와 가법성

데이터는 수학, 코딩, 퍼즐, 안전 등 도메인별로 묶고, 각 도메인을 독립적으로 포화 튜닝한 뒤 단순 병합해도 상호 성능 이득이 유지되는 ‘가법성’을 확인했다. 먼저 수학을 최대치로 맞춘 뒤, 코드 데이터를 레시피에 더하는 식으로 재학습 없이 양쪽 성능을 높였다. 이 접근은 소규모 팀이 한 도메인씩 단계적으로 확장하기에 실용적이지만, 수십·수백 도메인으로의 확장성은 여전히 연구 과제다.

합성 데이터 변환: 자동 검증을 가능하게

추상 증명이나 창의 과제처럼 자동 검증이 어려운 문제는, 숫자 답을 요구하거나 퍼즐 형태로 바꾸는 합성 변환으로 RL 보상 설계를 돕는다. 예컨대 삼각형 문제에 구체적 길이를 부여하고 “AC는?”처럼 단일 수치 답을 요구하면 정오 판별이 쉬워진다. 화학의 ether0처럼 제약 기반 보상을 쓰거나, 수학의 Kimina-Prover처럼 Lean 형식으로 번역해 증명 검증을 자동화하는 사례도 같은 맥락이다.

엔터프라이즈 적용 가이드

1) 모델의 ‘경계’를 찾는다: 다중 샘플을 생성해 합의가 깨지는 문항을 추려 가르칠 수 있는 예제로 삼는다. 2) 도메인 단위로 튜닝한다: 가장 중요한 한 분야부터 소규모 SFT를 반복하며 포화점을 찾고, 레시피를 동결한 뒤 다음 도메인으로 확장한다. 3) 합성 증강을 활용한다: 자동 검증이 어려운 과제는 숫자 답·단계 분해 등으로 변환하고, 검증된 소량 셋을 패러프레이즈·변형으로 증식한다. 4) 두 단계 전략을 쓴다: 탐색(짧은 실험·신속 반복)에서 레시피를 굳힌 후, 스케일 단계에서 도메인을 합쳐 장기 학습(~16B 토큰 등)으로 확장한다. 이러한 절차 전반에 데이터 퍼스트 SFT 원칙을 일관되게 녹여야 한다.

실제 적용 예시

한 대화형 모델은 초기 실험에서 대화 품질이 낮게 측정되자, 약 50만 개의 합성 멀티턴 데이터를 주입해 재학습했고, 다운스트림 과제와 상호작용 품질이 유의하게 향상됐다. 이는 ‘경계 탐지→합성 증강→짧은 재튜닝’의 빠른 루프가 실전에서 작동함을 보여주는 사례다.

홈페이지 제작 전 필수 체크리스트

데이터 퍼스트 SFT 적용 전 점검: 1) 목표 도메인과 핵심 벤치마크 정의, 2) 수천 개 수준의 시드 셋 수집(교재·코드 저장소·기존 티켓 등), 3) 강한 기준 모델로 정답 키 생성, 4) 기준 대비 불일치가 큰 문항만 남기는 필터, 5) 자동 검증 불가 항목의 합성 변환 설계, 6) 소규모 탐색 실험용 하이퍼파라미터와 평가 프로토콜 확정.

홈페이지 제작 프로세스 단계별 안내

1단계 탐색: 단일 도메인 소규모 SFT→검증 셋 성능 추적→데이터 믹스 반복 개선. 2단계 결합: 도메인 레시피 동결 후 가법적으로 병합→장기 학습으로 스케일. 3단계 강화: 합성 증강·다중 샘플링·다수결 평가로 안정성 제고. 4단계 배포: 모델 카드에 데이터 출처·필터 기준·벤치마크 방법을 투명하게 기록해 재현성을 확보한다.

한계와 트레이드오프

가법성은 수학+코드에서 잘 작동했지만, 다도메인 확장성은 미확인 영역이다. 합성 데이터 비중이 과도하면 다양성이 줄 수 있어, 실제(유기적) 문제 파이프라인을 병행해야 한다. 또한 반복 가능한 SFT가 비용을 낮춰주더라도, 효과는 결국 신중한 데이터 큐레이션의 품질에 좌우된다.

교훈

추론에서 ‘더 큰 모델=더 좋은 성능’ 공식은 절대적이지 않다. 데이터 퍼스트 SFT로 가르칠 수 있는 예제를 정밀 선별하고, 작은 탐색-큰 스케일의 훈련 설계를 따르면, 14B 같은 중형 모델도 대형을 능가할 수 있다. 신호가 분명해질 때만 확장하라—이 원칙이 비용을 아끼면서도 돌파적 추론 성능을 여는 열쇠다.

이 기사 공유하기