IBM, 하이브리드 맘바·트랜스포머 LLM ‘Granite 4.0’ 공개

IBM, 하이브리드 맘바·트랜스포머 LLM ‘Granite 4.0’ 공개

IBM, 하이브리드 맘바·트랜스포머 LLM ‘Granite 4.0’ 공개


기사 요약

  • IBM가 맘바·트랜스포머 하이브리드 아키텍처를 채택한 오픈소스 LLM 패밀리 Granite 4.0을 공개했다.
  • Apache 2.0, ISO 42001 인증, 서명된 체크포인트와 버그바운티 등으로 엔터프라이즈 신뢰성과 보안을 강화했다.
  • GPU 메모리 최대 70% 절감과 뛰어난 벤치마크 성능으로 RAG·함수호출·지시 따르기 등 업무 시나리오에 실전 투입 가능성을 높였다.

Granite 4.0 한눈에 보기

IBM이 오픈소스 대규모 언어모델 패밀리 ‘Granite 4.0’을 발표했다. 114년 역사의 ‘빅블루’는 Apache 2.0 라이선스, 강력한 성능 지표, 그리고 개방성과 책임 거버넌스를 앞세워 알리바바 Qwen 등 중국발 오픈 가중치 모델과의 경쟁 구도에 다시 합류했다. 메타가 라마 4 이후 노선을 조정하고 OpenAI가 gpt-oss를 내놓은 가운데, 업계에서는 이를 두고 “서구판 Qwen”이라는 평가도 나온다.

하이브리드 아키텍처: 트랜스포머×맘바

Granite 4.0은 트랜스포머와 맘바(Mamba)를 결합한 하이브리드 설계를 채택했다. 트랜스포머는 모든 토큰을 상호 비교하는 ‘전결합 주의(attention)’로 맥락 이해에 강점이 있으나 입력 길이에 따라 계산·메모리 비용이 제곱으로 증가한다. 반면 맘바는 순차 처리와 내부 상태 갱신으로 입력 길이에 선형적으로 스케일해 긴 문서·동시 세션에서 효율이 높다. Granite 4.0은 Mamba-2 레이어와 트랜스포머 블록을 혼합해 효율과 문맥 정밀도를 동시에 노린 첫 공식 하이브리드 릴리스로, 2025년 ‘Granite-4.0-Tiny-Preview’를 통한 예고에 이어 본격 라인업을 선보였다. 모델 체크포인트는 암호학적 서명이 제공되며 ISO 42001 인증을 취득, 엔터프라이즈 지향의 지시 따르기·함수 호출·RAG 등 에이전틱 AI 작업을 중점 지원한다.

메모리 절감과 비용 효율

IBM은 Granite 4.0의 하이브리드 설계가 실제 운영 환경에서 특히 긴 컨텍스트·다중 동시 세션에서 GPU 메모리를 70% 이상 절감할 수 있다고 밝혔다. 32B 파라미터 MoE(활성 9B)의 Granite-4.0-H-Small은 단일 NVIDIA H100에서도 높은 처리량을 유지하며, 하드웨어 비용을 직접 낮춘다. 소형·엣지 용도로는 7B 하이브리드(활성 1B) H-Tiny와 3B 하이브리드 H-Micro가 제공되고, 맘바 최적화가 덜 된 플랫폼을 위해 3B 트랜스포머 전용 Granite-4.0-Micro도 함께 배포된다.

성능 벤치마크와 비교

스탠퍼드 HELM의 IFEval에서 Granite-4.0-H-Small은 대부분의 오픈 가중치 모델을 제치고 메타의 더 큰 Llama 4 Maverick 바로 뒤를 기록했다. 버클리 Function Calling Leaderboard v3에서도 정확도와 호스티드 API 비용 간 균형이 돋보이며, RAG 과제에서는 오픈 경쟁군 상위권 평균 정확도를 보였다. 특히 가장 작은 모델조차 이전 세대 Granite 3.3 8B를 능가해, 아키텍처 혁신과 훈련 전략 개선의 효과를 입증했다.

신뢰·안전·보안

Granite는 오픈 모델 패밀리로는 최초로 ISO/IEC 42001:2023 인증을 획득했으며, HackerOne과 협력해 최대 10만 달러 보상 버그바운티를 운영한다. 모든 Granite 4.0 체크포인트는 서명되어 배포 전 무결성과 출처 검증이 가능하고, watsonx.ai 고객에게는 AI 생성물 관련 제3자 지식재산권 클레임에 대한 면책도 제공된다.

학습 데이터와 로드맵

Granite 4.0은 DataComp-LM, 위키피디아 등 엔터프라이즈 관련 데이터셋과 언어·코드·수학·다국어·보안 과제를 위한 큐레이션 서브셋을 포함한 총 22조 토큰으로 학습됐다. 사후 학습은 오늘 공개된 지시 튜닝(Instruct)과 올가을 공개 예정인 추론 특화 ‘Thinking’ 변종으로 나뉜다. 2025년 말까지 대규모 업무용 ‘Granite 4.0 Medium’과 엣지용 ‘Granite 4.0 Nano’가 추가될 계획이다.

플랫폼 지원과 배포

Granite 4.0은 즉시 Hugging Face와 IBM watsonx.ai에서 사용 가능하며, Dell Technologies, Docker Hub, Kaggle, LM Studio, NVIDIA NIM, Ollama, OPAQUE, Replicate 파트너를 통해서도 배포된다. 곧 Amazon SageMaker JumpStart와 Microsoft Azure AI Foundry 지원이 추가될 예정이며, vLLM 0.10.2와 Hugging Face Transformers에서 하이브리드 추론을 지원한다. llama.cpp와 MLX 호환성도 확장 중이며, Unsloth(파인튜닝), Continue(코딩 어시스턴트)와의 연동도 가능하다.

엔터프라이즈 적용 사례

EY, 록히드 마틴 등과의 사전 테스트를 통해 Granite 4.0은 멀티에이전트 워크플로, 고객지원 자동화, 대규모 검색·검색증강 시스템 등 현실 업무에 맞춰 다듬어졌다. Base와 Instruct 두 형태가 제공되며, 고난도 추론은 추후 ‘Thinking’ 시리즈가 담당한다. 실무에서는 LLM 라이프사이클을 관리하는 리드 AI 엔지니어가 작은 메모리 풋프린트로 빠른 배포와 경량 운영이 가능하고, 오케스트레이션을 맡는 시니어 엔지니어는 SageMaker·Hugging Face 등 주류 스택과의 호환성으로 파이프라인을 표준화할 수 있다. 데이터 엔지니어는 장문 컨텍스트 효율로 대규모 RAG를 저비용으로 구성하고, 보안 책임자는 서명·버그바운티·ISO 인증을 통해 컴플라이언스 신호를 확보한다.

대안적 하이브리드 모델 동향

AI21 Jamba는 트랜스포머와 맘바 레이어를 교차 배치하고 일부 레이어에 MoE를 적용, 최대 256K 토큰 컨텍스트와 높은 처리량·낮은 메모리를 달성한다. NVIDIA Nemotron-H는 주의(attention) 다수를 Mamba-2로 대체해 최대 3배 추론 가속을, Nemotron-Nano-2는 추론 과제에서 최대 6배 처리량 개선을 보고했다. 멀티모달 영역에서도 디코더 구성에 맘바를 혼합하는 시도가 이어진다. 알리바바 Qwen 본선은 맘바·SSM이 없는 조밀(decoder-only) 트랜스포머지만, Vamba-Qwen2-VL-7B 같은 실험이 하이브리드 가능성을 보여준다.

Granite 4.0이 기업에 주는 의미

Granite 4.0은 개방성과 엔터프라이즈급 안전성·확장성·효율을 결합해, 신뢰·비용·실전 배치를 중시하는 기업용 AI의 실용적 기반을 지향한다. 미국 내에서는 메타의 선도 약화와 중국발 Qwen 약진 속에, Apache 라이선스·서명·ISO 42001 인증으로 ‘열림과 책임’을 동시에 천명한 점이 상징성을 더한다. Granite 4.0은 오픈소스 생태계를 견인하며, 향후 추가 모델과 광범위한 플랫폼 지원을 통해 기업용 오픈소스 AI 비전의 핵심 축으로 자리매김할 전망이다.