leangnews
Command Palette
Search for a command to run...
2025년 11월 14일 09:02
웨이보 오픈소스 VibeThinker-1.5B, 7,800달러로 DeepSeek R1 제쳐
기사 요약
- 웨이보가 공개한 오픈소스 LLM VibeThinker-1.5B는 1.5B 파라미터임에도 수학·코드 추론 벤치마크에서 초대형 모델을 능가했다.
- SSP(스펙트럼 투 시그널) 프레임워크와 MGPO 기반 RL로 소형 모델의 추론 성능을 끌어올렸으며, 사후 학습 비용은 약 7,800달러에 불과하다.
- 엣지 배포가 가능한 경량성과 투명한 벤치마크를 바탕으로, 기업용 추론 시스템의 비용·지연·통제성 균형점을 새로 제시한다.
개요: 오픈소스 소형 모델이 거둔 대형 성과
중국 소셜 플랫폼 웨이보의 AI 부문이 오픈소스 대규모 언어 모델 VibeThinker-1.5B를 공개했다. 경쟁사 알리바바의 Qwen2.5-Math-1.5B를 파인튜닝한 15억 파라미터 모델로, MIT 라이선스 하에 Hugging Face, GitHub, ModelScope에서 연구·상업 용도로 자유롭게 사용할 수 있으며 기술 보고서는 arXiv에 공개됐다.
VibeThinker-1.5B는 소형임에도 수학 및 코드 중심의 형식 추론 벤치마크에서 상위권 성능을 보이며, 올해 초 화제를 모았던 6,710억 파라미터의 DeepSeek R1보다도 형식 추론에서 앞서는 결과를 냈다. 또한 Mistral AI의 Magistral Medium을 능가하고, Anthropic Claude Opus 4 및 OpenAI gpt-oss-20B Medium과 견줘도 인프라와 투자 비용은 극히 적다.
비용 효율: 7,800달러 사후 학습으로 달성
컴퓨트 예산 기준 사후 학습(Post-training) 비용은 약 7,800달러(엔비디아 H800 기준 3,900 GPU-시간)에 불과하다. 이는 유사·상위 규모 모델의 파인튜닝에 일반적으로 요구되는 수만~수십만 달러 대비 현저히 낮다. 다만 이는 전체 개발 비용이 아니라 사후 학습 단계 비용이라는 점을 명확히 했다.
LLM은 대개 두 단계를 거친다. 사전 학습(Pre-training)에서 대규모 텍스트로 다음 토큰 예측을 통해 언어 구조와 일반 지식을 익히고, 그 다음 사후 학습에서 고품질의 질문·프롬프트·전문가 답변 데이터로 지시 따르기, 대화, 단계적 추론, 인간 정렬을 학습한다. VibeThinker-1.5B의 사례는 이 사후 학습 단계의 비용 효율 극대화를 보여준다.
훈련 방식: Spectrum-to-Signal Principle(SSP)
VibeThinker-1.5B의 성능은 단순 파라미터 확장이 아니라 SSP(스펙트럼 투 시그널)라는 훈련 프레임워크에서 비롯된다. 핵심은 지도 미세조정(SFT)과 강화학습(RL)을 목표가 다른 두 단계로 분리해, 작은 모델도 추론 공간을 넓게 탐색한 뒤 신호를 증폭하도록 설계한 점이다.
Spectrum Phase(SFT): 해답 다양성 극대화
단일 정답 정확도(Pass@1)만을 좇지 않고, 잠재적 정답의 스펙트럼을 넓혀 Pass@K를 높이도록 학습한다. 다양한 풀이 경로를 확보해 이후 단계의 선택 폭을 키운다.
Signal Phase(RL): MGPO로 최적 경로 증폭
MaxEnt-Guided Policy Optimization(MGPO)로 불확실성이 높은 문제에 엔트로피 가중치를 두어 학습을 집중시키고, 스펙트럼에서 가장 타당한 경로의 신호를 증폭한다. 이 분리는 대규모 파라미터에 의존하지 않고도 작은 모델이 효과적으로 추론 능력을 끌어올리는 데 기여한다.
벤치마크: 수학·코드에서 초대형 모델에 필적
핵심 수치(예시): VibeThinker-1.5B는 AIME25 74.4, LiveCodeBench v6 51.1, GPQA-Diamond 46.7을 기록했다. 비교 대상으로 GPT-OSS-20B-Medium은 72.1/54.9/66.0, Claude Opus 4는 69.2/56.6/79.6, MiniMax M1(456B)은 74.6/62.3/69.2, DeepSeek R1(671B)은 70.0/65.9/71.5, Kimi K2(1.09T)는 49.5/53.7/75.1을 보였다.
구조적 추론 벤치마크 전반에서 VibeThinker-1.5B는 비(非)추론 지향 LLM보다 일관되게 우수했으며, AIME24에서는 Kimi K2(1.09T)를 10점 이상 앞섰고(80.3 대 69.6), LiveCodeBench v6에서도 Claude Opus 4를 넘어섰다(51.1 대 47.4). GPQA에서는 GPT-4.1·Claude보다는 낮지만, 베이스 모델 성능을 두 배 이상 끌어올렸다(16.4 → 46.7). 수학·코드에서는 초대형 모델과 대등하거나 앞서지만, 일반 상식·백과 지식 범주의 GPQA에서는 대형 모델이 여전히 우위다.
배포·추론 가이드: 엣지에 적합한 경량성
권장 추론 설정은 temperature 0.6, top_p 0.95, max_tokens 40,960이다. 모델 크기가 작아 모바일, 차량 임베디드 등 엣지 디바이스에도 배포 가능하며, 대형 모델 대비 추론 비용이 20~70배 저렴한 것으로 추정된다. VibeThinker-1.5B는 연구 성과를 넘어 로컬 추론 시스템의 실용적 기반이 될 수 있다.
웨이보의 전략과 시장 맥락
웨이보는 2009년 시나가 출시한 중국 대표 소셜 플랫폼으로, 월간 활성 사용자가 6억 명에 달한다. 그러나 단기 광고 성장성 둔화 우려와 더우인 중심의 동영상 경쟁, 그리고 공공광장 역할에 따른 규제 리스크(콘텐츠 거버넌스·데이터 보안 등) 속에서 사업 포트폴리오 다변화가 과제다. 2025년 9월에도 일부 플랫폼과 함께 공식 경고 대상에 언급되는 등 정책 리스크 노출이 이어졌다.
이런 환경에서 VibeThinker-1.5B 공개는 웨이보가 미디어 플랫폼을 넘어 차세대 AI 개발의 주체로 포지셔닝하려는 의지를 보여준다. 자본, 사용자 행태 데이터, 내부 연구 역량을 바탕으로 인접 기술영역을 공략하려는 전략적 전환으로 볼 수 있다.
기업 적용 시사점
수학·프로그래밍 작업에서 100배 이상 큰 모델을 능가할 수 있는 1.5B 모델은 단순한 컴퓨트 절감 이상의 의미가 있다. 제약 인프라에서의 LLM 추론, 엣지 지연 단축, 폐쇄형 초대형 모델 API 의존 감소로 아키텍처 균형이 바뀐다. RLHF 파이프라인 운영, 하이브리드 클라우드 추론 최적화, 소형 체크포인트 정교화에도 유용한 설계 로드맵을 제시한다.
또한 VibeThinker-1.5B는 데이터 정화와 벤치마크 투명성을 강조해 감사가능성(auditability) 요구에 부합한다. 일반상식 범위에서는 최전선 모델에 못 미치지만, 정확성이 더 중요한 통제된 환경의 업무 과제에는 매력적인 선택지다.
결론
VibeThinker-1.5B는 파라미터 규모·컴퓨트 집약·최소 유효 크기에 대한 통념을 흔들며, 소형이면서 추론 최적화된 오픈소스 모델의 실용성을 입증했다. 비용, 지연, 해석가능성, 통제의 균형을 중시하는 조직에 새로운 옵션을 제시하며, 기업용 추론 시스템 구축의 토대를 재정의한다.