Liquid AI, 온디바이스 멀티모달 LFM2-VL 공개

Liquid AI, 온디바이스 멀티모달 LFM2-VL 공개

Liquid AI, 온디바이스 멀티모달 LFM2-VL 공개


기사 요약

  • Liquid AI가 스마트폰부터 임베디드까지 효율 배치를 겨냥한 멀티모달 비전-언어 기초 모델 LFM2-VL을 공개했다.
  • 입력마다 가중치를 실시간 생성하는 LIV 접근법으로 유사 모델 대비 최대 2배 빠른 GPU 추론과 경쟁력 있는 벤치마크를 달성했다.
  • 450M·1.6B 두 모델, 512×512 네이티브 처리, Hugging Face 배포와 LFM1.0 라이선스로 상업적 이용 조건부 허용이 예고됐다.

온디바이스 멀티모달 AI, 무엇이 달라졌나

Liquid AI가 LFM2-VL을 공개했다. 이 비전-언어 기초 모델은 스마트폰과 노트북은 물론 웨어러블과 임베디드까지 폭넓은 하드웨어에 효율적으로 배치되도록 설계됐다. 낮은 지연, 높은 정확도, 실제 환경에서의 유연성을 내세우며, 한 달여 전 공개한 LFM2 아키텍처를 멀티모달로 확장한 버전이다. 회사는 입력마다 가중치(모델 설정)를 실시간 생성하는 선형 입력 가변 LIV 시스템을 통해 시장에서 가장 빠른 온디바이스 파운데이션 모델을 구현했다고 강조했다.

핵심 기능과 설계

LFM2-VL 개요와 핵심 특징

해당 모델은 유사한 비전-언어 모델 대비 GPU 추론 속도를 최대 두 배까지 끌어올리면서도 표준 벤치마크에서 경쟁력을 유지한다. 공동창업자 겸 CEO 라민 하사니는 X에서 효율이 곧 우리 제품이라고 밝혔다.

모델 구성과 LIV 접근법

아키텍처는 언어 모델 백본, SigLIP2 NaFlex 비전 인코더, 멀티모달 프로젝터로 구성된다. 프로젝터는 픽셀 언셔플을 포함한 2층 MLP 커넥터를 채택해 이미지 토큰 수를 줄이고 처리량을 높인다. 배포 시나리오에 맞춰 이미지 토큰 또는 패치의 최대 개수 같은 파라미터를 조정해 속도와 품질을 균형 있게 선택할 수 있다. 훈련에는 오픈 데이터셋과 사내 합성 데이터를 합쳐 약 1000억 개의 멀티모달 토큰이 사용됐다.

제품 라인업과 이미지 처리

두 가지 크기와 이미지 처리 방식

모델은 두 가지 크기로 제공된다. 450M 파라미터급은 자원이 극도로 제한된 환경을 겨냥한 초경량 모델이며, 1.6B 파라미터급은 단일 GPU와 디바이스 온디바이스 배치에도 적합할 만큼 가볍다. 두 모델 모두 최대 512×512 해상도까지 이미지를 원본 비율로 처리해 왜곡이나 불필요한 업스케일을 피한다. 더 큰 이미지는 겹치지 않는 패치로 분할하고, 전반적 문맥 파악을 위해 썸네일을 추가해 세부와 전체 장면을 함께 포착한다.

성능과 배치

LFM2-VL 성능·벤치마크·추론 속도

1.6B 모델은 RealWorldQA 65.23, InfoVQA 58.68, OCRBench 742 등에서 준수한 성적을 기록했고, 멀티모달 추론에서도 견고한 결과를 보였다. 표준 워크로드인 1024×1024 이미지와 짧은 프롬프트 조합에서 동급 대비 가장 빠른 GPU 처리 시간을 달성했다.

플랫폼과 생태계

Liquid AI 배경과 LEAP·Apollo

Liquid AI는 MIT CSAIL 출신 연구자들이 설립했으며, 범용 트랜스포머를 넘어서는 아키텍처를 지향한다. 자사의 LFM은 동적 시스템, 신호처리, 수치 선형대수 원리에 기반해 텍스트, 비디오, 오디오, 시계열 등 연속 데이터를 폭넓게 다룬다. 적은 연산 자원으로 동등하거나 더 나은 성능을 내면서 추론 중 실시간 적응과 낮은 메모리 사용을 지원해 엔터프라이즈와 엣지 모두에 적합하다. 7월 공개한 크로스 플랫폼 SDK LEAP은 iOS와 Android를 가리지 않고 소형 언어 모델 실행을 지원하며, 자사 모델과 오픈소스 SLM 통합, 300MB급 모델 라이브러리, 동작을 완전 오프라인으로 시험할 수 있는 동반 앱 Apollo를 제공한다. 이는 프라이버시와 저지연을 중시하는 온디바이스 AI 지향점과 맞닿아 있으며, 클라우드 의존을 줄이고 과제 특화 모델을 개발자 손에 쥐여준다.

배포와 라이선스

배포, 라이선스, 상업적 이용

모델은 현재 허깅페이스에서 제공되며, Colab 예제 파인튜닝 코드와 함께 제공된다. Hugging Face Transformers와 TRL과의 호환성을 갖췄다. 라이선스는 LFM1.0으로, Apache 2.0 원칙을 바탕으로 한다고 밝혔지만 전문은 아직 공개되지 않았다. 연 매출 1000만 달러를 기준으로 상이한 조건을 적용해 상업적 이용을 일정 조건 하에 허용할 계획이라고 회사는 전했다.