leangnews

2026년 03월 05일 11:30

마이크로소프트, Phi-4-reasoning-vision-15B로 ‘생각’의 효율을 재정의

마이크로소프트, Phi-4-reasoning-vision-15B로 ‘생각’의 효율을 재정의


기사 요약

  • 마이크로소프트가 소형 멀티모달 모델 Phi-4-reasoning-vision-15B를 공개하며 대형 모델과 견주거나 능가하는 효율과 실용성을 내세웠다.
  • 약 2000억 토큰의 정교한 데이터 큐레이션과 20/80 혼합 추론 설계로 수학·과학은 단계적 사고, 캡션·OCR은 즉답으로 처리한다.
  • SigLIP-2 Naflex 기반 중간 결합 구조와 고해상도 스크린 이해로 UI 자동화 에이전트에 적합하며, 개방 가중치로 배포 유연성을 높였다.

개요 — Phi-4-reasoning-vision-15B의 목표와 위치

마이크로소프트는 개방 가중치 멀티모달 모델 Phi-4-reasoning-vision-15B를 공개했다. 이 150억 매개변수 모델은 이미지와 텍스트를 함께 처리하며, 과학·수학 추론, 차트·문서 해석, GUI 내비게이션, 사진 캡션과 영수증 읽기 같은 일상적 시각 과제를 빠르게 수행한다. 업계가 ‘큰 모델이 정확도는 높지만 비용·지연·전력 소모가 크다’는 현실과 씨름하는 가운데, 팀은 “작고 효율적인 멀티모달 추론 모델 구축에 대한 실용적 인사이트”와 경쟁력 있는 개방 가중치 제공을 목표로 삼았다.

데이터 효율 — 경쟁 모델의 5분의 1 학습량으로 달성 (Phi-4-reasoning-vision-15B)

Phi-4-reasoning-vision-15B는 멀티모달 약 2000억 토큰으로 학습됐고, 언어 백본 Phi-4-Reasoning(160억 토큰)과 기반 Phi-4(고유 4000억 토큰)를 토대로 구축됐다. 알리바바 Qwen VL·Moonshot Kimi-VL·SenseTime InternVL·Google Gemma3 등 경쟁 모델이 1조 토큰 이상을 쓴 것과 대비된다. 비결은 규모가 아니라 데이터 큐레이션에 있다. 오픈소스를 정밀 필터링·개선하고, 고품질 도메인 내부 데이터와 타깃 수집을 합쳤다. 각 데이터셋 샘플을 사람이 5~10분 검수했고, 오답은 GPT-4o와 o4-mini로 재생성했으며, 질문이 부적절해도 이미지가 양호하면 캡션·VQA 데이터의 시드로 재활용했다. 광범위한 오픈소스에서 서식·논리 오류를 대거 수정했다는 점은 학습 데이터 품질에 대한 업계 전반의 경각심을 일으킨다.

혼합 추론 전략 — 언제 생각하고 언제 바로 답할까 (Phi-4 Reasoning Vision)

언어 모델 분야에서 단계별 사고를 늘리는 ‘추론 모델’이 각광받지만, 멀티모달로 확장하면 캡션·OCR처럼 굳이 생각이 필요 없는 과제도 많다. 팀은 약 20% 샘플에 체인의 추론 흔적을, 80%에는 토큰으로 즉답을 학습시키는 혼합 설계를 택했다. 그 결과 수학·과학에는 구조화된 추론을, 지각 중심 과제에는 신속 응답을 기본으로 선택한다. 사용자는 프롬프트에 또는 를 넣어 동작을 재정의할 수 있다. 대안 파이프라인(비추론 베이스에서 동시 학습, 멀티모달 후 추론 추가, 전 데이터에 추론 강제)은 각각 대규모 데이터 요구, 망각 위험, 불필요한 연산 낭비라는 단점이 컸다.

비전 아키텍처 — 중간 결합과 고해상도 스크린 읽기 (Phi-4-reasoning-vision-15B)

모델은 SigLIP-2 비전 인코더와 언어 백본을 잇는 중간 결합 방식을 사용한다. 이는 이미지 토큰을 언어 임베딩 공간으로 사영하는 설계로, 리소스 집약적인 초기 결합 대비 계산·메모리·데이터 요구를 줄인다. 해상도 처리에 대한 어블레이션에서 Dynamic S, 멀티크롭, 멀티크롭+S, SigLIP-2 Naflex 기반 동적 해상도를 비교했고, 동적 해상도 인코더가 특히 고해상도에 강점을 보였다. 최대 약 3600 토큰(대략 720p 네이티브)에 대응하는 SigLIP-2 Naflex를 채택해 ScreenSpot-Pro 같은 미세 시각 이해 벤치마크에서 좋은 결과를 냈다. 덕분에 버튼·메뉴·입력란 등 UI 요소를 정밀하게 식별·정위치화해 데스크톱·웹·모바일을 탐색하는 에이전트에 적합하며, 추론 지연과 모델 크기 요구도 낮다.

벤치마크와 효율성 — 빠른데 충분히 정확하다 (Phi-4-Reasoning-Vision)

자체 10개 벤치마크에서 AI2D 84.8, ChartQA 83.3, MathVista 75.2, ScreenSpot v2 88.2, MMMU 54.3을 기록했다. 대형 Qwen3-VL-32B(각각 85.0, 84.0, 81.8, 93.9, 70.6)에는 다소 못 미치지만, 동급 Qwen3-VL-8B·Kimi-VL-A3B와는 경쟁적이다. 정확도를 계산 시간·출력 토큰 수와 함께 보면 Phi-4-reasoning-vision-15B는 빠르면서 정확한 모델의 파레토 전선에 놓인다. 온전한 재현성을 위해 팀은 리더보드 인용 대신 직접 평가했고, 온도 0.0, 탐욕적 디코딩, 최대 출력 4096 토큰, 맞춤 프롬프트·튜닝 없이 수행했으며, 평가 로그 전면 공개를 약속했다.

생태계와 전망 — 엣지에서 로봇까지 확장하는 Phi

Phi 계열은 연구 프로젝트에서 마이크로소프트 AI 전략의 축으로 성장했다. 2024년 말 Phi-4(140억 파라미터)로 합성 데이터·정교 큐레이션의 힘을 보여준 뒤, 2025년 4월에는 Phi-4 mini reasoning(38억), Phi-4 reasoning(140억), Phi-4 reasoning plus를 내놨고, 후자는 DeepSeek R1(6710억) 수준에 접근했다는 보도도 있었다. 온디바이스 SLM인 Phi Silica는 LoRA로 과제별 생성 품질을 높여 교육팀의 Kahoot! 퀴즈 생성에서 반려율 75% 감소, 주관 품질 4.6배 향상을 달성했다. 하드웨어 측면에서 Phi-4-mini는 MediaTek NPU에 최적화돼 Dimensity 9400에서 프리필 초당 800토큰 이상으로 동작한다. 또한 로보틱스 확장판 Rho-alpha(ρα)는 이중 팔 조작 과제에 자연어를 제어 신호로 변환하고 촉각을 인지 스택에 더해 휴머노이드까지 겨냥한다.

한계와 과제 — 숫자보다 실전의 검증

가장 어려운 영역에선 한계도 분명하다. 수학적 추론(MathVerse)과 범용 멀티모달 이해(MMMU)에서 Qwen3-VL-32B-Thinking-40K가 우위였고, 20/80 추론·비추론 비율은 도메인별 최적해가 아닐 수 있다. 언제 생각하고 언제 즉답할지의 자동 판단 역시 열린 과제다. 그럼에도 개방 가중치, 튜닝 코드, 로그 공개 전략은 기업에 배포 유연성과 비용 효율의 대안을 제시한다. 핵심은 ‘가장 큰’ 모델이 아니라, 제약 하에서 ‘가장 현명하게’ 작동하는 모델이라는 선택이다.

실제 적용 예시

웹·앱 자동화, 문서·영수증 처리, 대시보드 내비게이션 등 실전 배치에서 Phi-4-reasoning-vision-15B를 활용할 때 도움이 되는 체크리스트와 단계별 절차를 정리한다.

홈페이지 제작 전 필수 체크리스트

1) 목표 정의: 캡션·OCR은 기본, 수식·그래프 해석은 강제 등 과제별 추론 정책을 명확화한다. 2) 지연 예산: 서버·엣지 배치와 모델 크기, 출력 토큰 상한을 설정한다. 3) 프라이버시: 이미지·스크린샷의 민감 정보 마스킹과 로깅 정책을 수립한다. 4) 해상도 파이프라인: 720p 수준 동적 해상도 인코딩과 멀티크롭 대비 성능·비용을 검토한다. 5) 품질 검증: 벤치마크뿐 아니라 자체 UI 그라운딩·전환율 지표로 A/B 테스트한다.

홈페이지 제작 프로세스 단계별 안내

준비: 주요 화면 흐름과 예제 스크린샷을 수집·라벨링한다. 개발: Phi-4-reasoning-vision-15B를 API로 연결하고, LoRA 등 경량 튜닝으로 도메인 용어·컴포넌트 인식을 보강한다. 배포: Azure/Hugging Face/GitHub 가중치로 호스팅하고, 캐시·스트리밍으로 체감 지연을 줄인다. 운영: 평가 로그를 주기적으로 공개 포맷에 맞춰 축적하고, 고난도 질의에는 백업 대형 모델로 폴백해 정확도와 비용의 균형을 맞춘다.

이 기사 공유하기