leangnews
Command Palette
Search for a command to run...
2025년 10월 30일 09:00
IBM, 로컬·브라우저에서 구동되는 Granite 4.0 Nano 공개
기사 요약
- IBM이 3.5억~15억 매개변수의 오픈소스 소형 모델 ‘Granite 4.0 Nano’를 공개해 로컬·엣지 환경에서의 접근성과 효율성을 강조했습니다.
- 350M 모델은 8–16GB RAM의 노트북 CPU에서도, 1.5B 모델은 6–8GB VRAM급 GPU(또는 충분한 시스템 RAM+스왑)로 원활히 구동되며, 브라우저에서도 실행 가능합니다.
- Apache 2.0 라이선스, llama.cpp·vLLM·MLX 호환, ISO 42001 인증과 함께 벤치마크에서 동급 대비 선두권 성능을 보였습니다.
개요: 소형이지만 실용적인 오픈소스 LLM
모델 크기를 지능의 대리척도로 보던 흐름 속에서, IBM은 효율과 접근성을 앞세운 ‘Granite 4.0 Nano’를 공개했습니다. 3.5억(350M)부터 15억(1.5B) 매개변수까지의 초소형 범주에 속하면서도, 로컬·엣지 환경에서 실용적인 성능을 내는 것이 목표입니다. Granite 4.0 Nano는 Apache 2.0 라이선스로 공개돼 연구자와 엔터프라이즈, 인디 개발자까지 상업적 활용이 가능합니다.
IBM이 공개한 Granite 4.0 Nano 라인업
하이브리드 SSM와 트랜스포머 변형
• Granite-4.0-H-1B(약 1.5B) – 하이브리드 SSM 구조
• Granite-4.0-H-350M(약 350M) – 하이브리드 SSM 구조
• Granite-4.0-1B – 트랜스포머 변형(매개변수는 2B에 가까우나 동급 성능 정렬)
• Granite-4.0-350M – 트랜스포머 변형
H 시리즈(Granite-4.0-H-1B, H-350M)는 상태공간모델(SSM)과의 하이브리드로 낮은 지연과 효율을 동시에 노려 엣지 환경에 적합합니다. 표준 트랜스포머 변형(Granite-4.0-1B, 350M)은 llama.cpp 등 기존 툴체인과의 폭넓은 호환성을 중시해 하이브리드 미지원 런타임에서도 선택지를 제공합니다. “하이브리드 변형은 진정한 1B인 반면, 비하이브리드는 2B에 가깝지만 이름은 정렬을 위해 맞췄다”는 설명이 Reddit AMA에서 공유됐습니다.
실행 환경과 접근성
350M 모델은 8–16GB RAM의 최신 노트북 CPU에서도 무난히 실행되며, 1.5B 모델은 6–8GB VRAM 이상의 GPU에서 가장 부드럽게 동작합니다(또는 CPU 전용 추론 시 충분한 시스템 RAM과 스왑으로 대체 가능). 가장 작은 모델은 브라우저에서 로컬로 구동할 수 있다는 점도 확인됐습니다. Granite 4.0 Nano는 llama.cpp, vLLM, MLX에 기본 호환되며, 책임 있는 AI 개발 표준인 ISO 42001 인증을 획득했습니다.
벤치마크: 동급 대비 선두권
소형 언어 모델(SLM) 경쟁 구도에서 IBM은 Qwen3, Google Gemma, LiquidAI LFM2, Mistral(서브 2B) 등과 맞붙습니다. 공개 수치에 따르면, IFEval(명령 따르기)에서 Granite-4.0-H-1B가 78.5를 기록해 Qwen3-1.7B(73.1)를 앞섰고, BFCLv3(함수/툴 호출)에서는 Granite-4.0-1B가 54.8로 동급 최고를 기록했습니다. 안전성(SALAD, AttaQ)에서도 90% 이상을 달성했고, Granite-4.0-1B의 종합 평균은 68.3%로 지식·수학·코드·안전 전반에서 강세를 보였습니다. 리소스 제약을 전제로 설계된 Granite 4.0 Nano가 이처럼 성능을 확보했다는 점이 특히 인상적입니다.
왜 ‘크기’보다 ‘설계’인가
초기 LLM 시대에는 매개변수가 곧 품질이었지만, 이제는 아키텍처, 학습 품질, 작업 특화 튜닝이 작은 모델도 큰 모델에 버금가게 만듭니다. Granite 4.0 Nano는 바로 이런 전환을 반영합니다. 개발·배포 유연성(모바일부터 마이크로서버까지), 추론 프라이버시(클라우드 콜 없이 로컬 처리), 개방성과 감사 가능성(오픈 라이선스의 코드·가중치 공개)이라는 세 가지 핵심 요구를 동시에 충족합니다.
커뮤니티 반응과 로드맵
IBM Granite 팀은 r/LocalLLaMA에서 AMA로 개발자들과 직접 소통했습니다. 확인된 내용으로는 더 큰 Granite 4.0 모델의 학습 진행, 추론 중심(‘thinking’) 변형 준비, 파인튜닝 레시피와 전체 트레이닝 논문 공개 예정, 호환 툴과 플랫폼 확대 등이 포함됩니다. 사용자들은 지시 따르기와 구조화 응답, 함수 호출, 다국어 대화, FIM 완성 등에서의 일관성과 활용도를 높이 평가했습니다.
배경: Granite의 진화와 엔터프라이즈 지향
IBM은 2023년 말 Watsonx 플랫폼과 함께 Granite 패밀리를 선보였고, 2024년에는 일부 코드 모델을 Apache 2.0으로 공개해 생태계를 넓혔습니다. 2024년 10월 Granite 3.0은 1B–8B 범주의 완전 오픈소스로 문맥 길이 확장, 인스트럭션 튜닝, 가드레일을 강화해 Llama, Qwen, Gemma와 정면 승부했습니다. 이후 3.1/3.2에서 환각 감지, 시계열 예측, 문서 비전, 조건부 추론 토글 등 엔터프라이즈 친화 기능을 추가했습니다. 2025년 10월 공개된 Granite 4.0은 트랜스포머와 Mamba-2 레이어를 섞은 하이브리드 구조로 메모리·지연 비용을 크게 낮추면서 지시 따르기·함수 호출 성능을 끌어올렸습니다. 또한 ISO 42001 인증, 모델 서명, Hugging Face·Docker·LM Studio·Ollama·watsonx.ai 배포 등 거버넌스와 신뢰성을 강화했습니다.
결론: Granite 4.0 Nano가 보여준 확장 가능한 효율성
Granite 4.0 Nano는 ‘매개변수 대결’에서 ‘사용성·개방성·배포 도달성’으로의 무게 이동을 상징합니다. 작은 하드웨어에서도 경쟁력 있는 성능을 내는 설계, 책임 있는 개발 관행, 오픈소스 커뮤니티와의 긴밀한 협업을 결합해, 대규모 자원이 없어도 실무에 투입 가능한 로컬 LLM의 방향을 제시합니다. 결국 강력한 시스템을 만드는 데 700억 매개변수가 필수는 아니며, Granite 4.0 Nano가 그 증거를 3–5차례 이상 입증하고 있습니다.