leangnews

2025년 10월 09일 09:00

AI21 Jamba Reasoning 3B, 소형 LLM 새 정의…노트북서 25만 토큰

AI21 Jamba Reasoning 3B, 소형 LLM 새 정의…노트북서 25만 토큰


기사 요약

  • AI21 Labs가 소형 오픈소스 모델 Jamba Reasoning 3B를 공개해 노트북·모바일 등 디바이스에서 25만+ 토큰 문맥 창을 지원한다.
  • 맘바+트랜스포머 하이브리드로 메모리 요구량을 줄이고 추론 속도를 2~4배 높였으며, 맥북 프로 기준 초당 35토큰을 처리했다.
  • 기업은 간단한 함수 호출·정책 기반 생성은 온디바이스로, 복잡한 추론은 GPU 클러스터로 보내는 하이브리드 전략과 강화된 프라이버시를 기대할 수 있다.

소형 LLM의 새 기준: Jamba Reasoning 3B

엔터프라이즈를 겨냥한 소형 모델의 최신 주자는 AI21 Labs다. 이 회사는 추론을 데이터센터에서 디바이스로 옮기면 트래픽과 비용을 크게 줄일 수 있다고 본다. 새로 공개된 Jamba Reasoning 3B는 확장 추론과 코드 생성, 사실 기반 응답을 수행하는 ‘초소형’ 오픈소스 모델로, 랩톱과 스마트폰 등 에지 디바이스에서 25만 토큰이 넘는 문맥을 처리하며 온디바이스 추론이 가능하다. 공동 CEO 오리 고셴은 고가의 데이터센터 구축과 칩 감가상각을 고려하면 경제성이 맞지 않는 경우가 많아, 앞으로는 로컬 디바이스와 GPU가 공존하는 하이브리드가 보편화될 것이라고 말했다.

아키텍처와 성능

Jamba Reasoning 3B 아키텍처(Mamba+Transformer)

이 모델은 Mamba 아키텍처와 트랜스포머를 결합해 디바이스 상에서도 25만 토큰 규모의 윈도우를 다룰 수 있다. AI21에 따르면 동일 조건에서 추론 속도가 2~4배 빨라졌으며, 고셴은 특히 Mamba가 속도 향상에 크게 기여했다고 설명했다.

실제 성능과 메모리 최적화

하이브리드 구조는 필요한 메모리를 줄여 연산 부담을 낮춘다. 표준 맥북 프로에서 Jamba Reasoning 3B를 테스트한 결과 초당 약 35토큰을 처리했다.

업무 적용: 함수 호출·정책 기반 생성·툴 라우팅

이 모델은 함수 호출, 정책에 근거한 텍스트 생성, 툴 라우팅 같은 업무에 특히 강점을 보인다. 예를 들어 다음 회의 관련 정보를 불러오고 아젠다를 작성하는 등 단순 요청은 디바이스에서 처리하고, 보다 복잡한 추론은 GPU 클러스터에 맡기는 식의 분산이 가능하다.

엔터프라이즈 소형 모델 동향

메타·구글·FICO 등 소형 모델 행보

메타는 9월 1억4천만~9억5천만 파라미터 범위의 추론 특화 패밀리 MobileLLM-R1을 공개해 수학·코딩·과학 추론을 지원하며, 연산 제약이 있는 디바이스에서도 동작한다. 구글의 Gemma는 초기부터 노트북·모바일 등 휴대 디바이스 구동을 겨냥해 출시됐고 이후 라인업이 확대됐다. FICO는 금융 전용 질의에만 답하는 Focused Language·Focused Sequence 소형 모델을 내놨다.

벤치마크와 차별점

Jamba Reasoning 3B는 Qwen 4B, 메타 Llama 3.2 3B, 마이크로소프트 Phi-4-Mini 등 동급 모델과 비교한 벤치마크에서 IFBench와 Humanity’s Last Exam을 모두 앞섰고, MMLU-Pro에서는 Qwen 4에 이어 2위를 기록했다. 더 작으면서도 추론 성능과 속도를 양립했다는 점, 그리고 높은 조향 가능성과 온디바이스 추론에 따른 프라이버시 이점이 차별점으로 꼽힌다.

비용·프라이버시·하이브리드 전망

엔터프라이즈는 소형 모델을 디바이스에 배치해 데이터센터 부하와 비용을 낮추고, 민감 데이터가 서버 밖으로 나가지 않도록 통제할 수 있다. 계산을 로컬과 GPU로 나누는 하이브리드 구성이 보편화되면, 현장 근접형 업무는 즉시성·비용 면에서 유리해지고 대규모 심화 추론만 클라우드로 넘기는 최적화가 가능해진다.

이 기사 공유하기