leangnews
Command Palette
Search for a command to run...
2025년 12월 03일 14:02
MIT 분사 리퀴드 AI, 엔터프라이즈급 소형 모델 학습 청사진 공개
기사 요약
- Liquid AI가 51쪽 LFM2 기술 보고서를 공개하며 소형 온디바이스 모델 학습을 위한 재현 가능한 청사진을 제시했다.
- 하드웨어 인더루프 탐색, 10~12T 사전학습·32K 중간 학습, Top-K 증류와 3단계 후학습으로 지시 이행·툴 사용 안정성을 높였다.
- 멀티모달(VL, Audio)·검색(ColBERT)·엣지 배포(LEAP)를 아우르며, 로컬–클라우드 하이브리드 아키텍처에서 소형 모델을 컨트롤 플레인으로 활용하도록 설계했다.
LFM2: 온디바이스 AI를 위한 재현 가능한 청사진
MIT 출신 연구진이 2023년에 설립한 Liquid AI는 2025년 7월 LFM2를 내놓으며, 새로운 ‘리퀴드’ 아키텍처로 훈련·추론 효율을 극대화한 시장 최고 수준의 온디바이스 모델을 제시했다. 초판은 350M·700M·1.2B 파라미터의 밀집 체크포인트와 게이티드 숏 컨볼루션 중심의 하이브리드 구조로, Qwen3·Llama 3.2·Gemma 3 등 동급 대비 품질과 CPU 처리량에서 우위를 보였다. 이후 작업·도메인 특화 변종, 소형 비디오 입력·분석 모델, 엣지 배포 스택 LEAP로 제품군을 확장하고 온디바이스·온프레미스 에이전트 시스템의 컨트롤 레이어를 지향한다. 이번 arXiv 51쪽 기술 보고서는 아키텍처 검색, 데이터 믹스, 증류 목표, 커리큘럼, 후학습 파이프라인을 공개해, 타 조직이 자체 하드웨어·배포 제약에 맞춘 소형·고효율 모델을 처음부터 재현 가능하게 학습할 수 있는 설계도를 제공한다.
현실 제약을 전제로 한 아키텍처
보고서는 벤치마크보다 먼저 현실 제약이 시스템을 한계로 모는 기업 환경을 출발점으로 삼는다. 지연 시간 예산, 최대 메모리, 열 스로틀링이 노트북·태블릿·상용 서버·모바일 장치의 운영 가능 범위를 규정한다. Liquid AI는 Snapdragon 모바일 SoC와 Ryzen 노트북 CPU 등 목표 장치에서 직접 아키텍처 검색을 수행했고, 그 결과 게이티드 숏 컨볼루션 블록을 주축으로 소수의 GQA 레이어를 더한 미니멀 하이브리드를 일관되게 선택했다. 이는 선형 어텐션·SSM 하이브리드보다 실제 장치에서 품질–지연–메모리 파레토가 우수했기 때문이다. 기업 관점의 효익은 명확하다: 350M~2.6B 전 구간에서 단순·파라미터 효율적·안정적인 구조, 밀집·MoE가 동일 백본을 공유하는 운영 휴대성, 그리고 동급 공개 모델 대비 CPU 프리필·디코드 처리량이 최대 2배에 달하는 온디바이스 실현 가능성이다.
엔터프라이즈 행동을 위한 학습 파이프라인
소형 모델의 한계를 물량이 아닌 구조로 보완한다. 10~12T 토큰 사전학습과 추가 32K 컨텍스트 중간 학습으로 유효 윈도를 확장하면서 연산비 폭증을 피한다. 교사가 부분 로짓만 제공할 때 생기는 표준 KL 증류의 불안정을 피해가는 디커플드 Top-K 지식 증류를 채택했고, SFT→길이 정규화 선호 정렬→모델 머징의 3단계 후학습으로 지시 따르기·툴 사용의 신뢰성을 끌어올렸다. 그 결과 모델은 ‘작은 LLM’이 아니라 JSON 스키마 준수, 구조화 포맷 출력, 멀티 턴 대화 운영 등에 능한 실용적 에이전트에 가깝다.
장치 제약을 고려한 멀티모달과 검색
시연용이 아닌 토큰 효율을 중심에 둔다. VL 변형은 대형 비전 트랜스포머를 내장하는 대신 SigLIP2 인코더를 커넥터로 연결하고 PixelUnshuffle로 시각 토큰 수를 과감히 줄인다. 고해상도 입력은 자동 동적 타일링으로 예산을 통제한다. Audio 변형은 임베딩/생성 이원 경로를 통해 보급형 CPU에서도 실시간 음성 전사나 음성-대-음성을 지원한다. ColBERT 변형은 레이트 인터랙션 검색을 경량화해 다국어 RAG를 전용 가속기 없이도 실행하며, 추론 모델과 동일 장치에서 빠른 로컬 검색을 수행해 지연을 낮추고 문서가 장치 경계를 벗어나지 않게 함으로써 거버넌스 이점을 제공한다.
하이브리드 엔터프라이즈 AI 스택의 청사진
작고 빠른 온디바이스 모델이 시간 민감적 지각·포맷팅·툴 호출·판단을 처리하고, 더 큰 클라우드 모델이 필요 시 중량 추론을 제공하는 로컬–클라우드 오케스트레이션이 표준으로 부상한다. 비용 통제(일상 추론 로컬 처리), 지연 결정성(TTFT·디코드 안정성, 네트워크 지터 제거), 규정 준수(PII·데이터 레지던시·감사 용이), 회복탄력성(클라우드 경로 장애 시 점진적 성능 저하) 등이 결합한다. 기업은 소형 온디바이스 모델을 에이전트 워크플로의 컨트롤 플레인으로, 대형 클라우드 모델을 온디맨드 가속기로 배치하게 될 것이다.
실제 적용 예시
LFM2 도입 전 필수 체크리스트
대상 하드웨어(Snapdragon, Ryzen 등) 프로파일링, 지연·메모리·열 예산 정의, 프롬프트/출력 포맷 요구사항(JSON 스키마 등) 정리, 사내 데이터 기반 SFT·선호 정렬 세트 준비, 온프레미스·엣지 배포 경로(LEAP 등) 검토.
LFM2 배포 프로세스 단계별 안내
하드웨어 인더루프 아키텍처 선택 → 사전학습·중간 학습 구성 → Top-K 증류와 3단계 후학습 적용 → 도메인 특화 변종·멀티모달 옵션(VL, Audio, ColBERT) 통합 → 로컬–클라우드 하이브리드 오케스트레이션 및 모니터링 설정.
전략적 시사점
온디바이스 AI는 더 이상 타협이 아니라 설계 선택이다. LFM2는 추론, 지시 이행, 다국어, RAG 전반에서 경쟁력을 보이며 동급 소형 공개 모델 대비 지연을 크게 줄인다. 2026 로드맵을 수립하는 CIO·CTO에게 이는 생산 워크로드의 의미 있는 부분을 소형·오픈·온디바이스 모델로 이관할 수 있음을 뜻하며, LFM2는 최전선 규모의 추론을 대체하진 않더라도 어디서나 실행되는 에이전트 시스템의 개방형·재현 가능 기반을 제공한다.