메이투안 LongCat-Flash-Thinking, GPT-5에 견주는 오픈소스 추론 모델

메이투안 LongCat-Flash-Thinking, GPT-5에 견주는 오픈소스 추론 모델

메이투안 LongCat-Flash-Thinking, GPT-5에 견주는 오픈소스 추론 모델


기사 요약

  • 중국 메이투안이 5600억 파라미터 MoE 기반 LongCat-Flash와 추론 특화 LongCat-Flash-Thinking을 공개했다.
  • LongCat-Flash-Thinking은 수학·코딩·정리 증명 등에서 GPT-5급 성능을 보이며 MiniF2F 등에서 오픈 모델 최고치를 기록했다.
  • API와 오픈 가중치(MIT 라이선스)로 무료 제공되며, 대규모 배포 최적화와 토큰 사용 64.5% 절감까지 입증했다.

개요

중국 배달·커머스 앱 메이투안은 2025년 8월, 첫 오픈소스 LLM인 LongCat-Flash(일명 LongCat-Flash-Chat, 5600억 파라미터 MoE)를 공개했고, 이어 고난도 문제해결을 위한 대규모 오픈소스 추론 모델 LongCat-Flash-Thinking을 선보였다. LongCat-Flash-Thinking은 기반 모델을 토대로 고급 추론에 최적화된 학습 파이프라인을 도입했으며, API를 통해 하루 50만 토큰(최대 500만 토큰까지 확장 무료)까지 무료로 사용할 수 있다. 서구권 기업은 보안·지정학적 리스크를 고려해 Hugging Face나 GitHub에서 모델을 내려받아 온프레미스나 가상 사설 클라우드/미국 클라우드에서 운영하는 방식을 선호할 수 있다. 업계 평론가 중 일부는 이 모델이 OpenAI의 GPT-5에 견준다고 평가하며, 메이투안은 모든 릴리스를 수정·상업 이용이 가능한 MIT 라이선스로 배포했다.

메이투안은 누구인가

메이투안은 2010년 왕싱이 설립한 이후 그루폰형 쿠폰 사이트에서 지역 서비스·리테일·물류를 아우르는 중국의 대표 슈퍼앱으로 성장했다. 2015년 다장땡핑과 합병해 로컬 리뷰·서비스 분야 입지를 강화했고, 2020년 브랜드를 다시 메이투안으로 통일했다. 본사는 베이징, 홍콩거래소 상장(3690.HK, 항셍지수 편입) 기업이며, 연간 거래 이용자 7.7억 명, 입점 상인 1450만 곳 이상을 보유한다. 최근 국내 경쟁 심화로 수익성이 압박받는 가운데, AI·반도체에 수십억 달러 규모 투자를 공식화했다.

초기 공개: LongCat-Flash

LongCat-Flash는 MoE 구조로 표면상 5600억 파라미터지만, 토큰당 186억~313억(평균 약 270억) 파라미터만 동적으로 활성화해 규모와 효율을 양립시켰다. 통신 오버헤드를 줄이는 제로 연산 전문가(zero-computation experts)와 Shortcut-connected MoE(ScMoE), 평균 활성 안정화를 위한 PID 기반 expert bias, 프록시 모델에서의 하이퍼파라미터 이관, 침묵 데이터 손상을 막는 결정적 연산, 개선된 초기화 등 학습 효율화 기법을 적용했다. 벤치마크에서는 MMLU 89.7, MATH500 96.4, GPQA-diamond 73.2, τ²-Bench Telecom 73.7을 기록했고, 추론 속도는 초당 100토큰을 상회해 실전 배포에 유리하다.

대규모 배포 최적화(SGLang)

메이투안은 9월 1일 SGLang 기반의 대규모 배포 기술 보고서를 공개했다. Prefill과 Decoding을 분리하는 PD Disaggregation, 통신(All-to-All)과 밀집 연산을 한 배치 내에서 겹쳐 숨기는 Single Batch Overlap(SBO) 파이프라인, Wide Expert Parallelism과 다단 겹침 스케줄링, 가벼운 헤드를 활용한 Multi-Token Prediction(MTP) 등을 도입했다. 그 결과 NVIDIA H800 클러스터에서 초당 100+ 토큰을 달성하면서 토큰당 비용은 더 작은 일부 모델의 절반 이하로 낮췄고, 처리량과 지연시간의 트레이드오프를 동시에 해소했다.

추론 강화: LongCat-Flash-Thinking

가장 큰 도약은 9월 23일 공개된 LongCat-Flash-Thinking이다. 이 모델은 두 단계로 특화됐다. 1) 커리큘럼 러닝과 지도 미세조정으로 체인 오브 소트(Chain-of-Thought) 추론 능력을 길러 냈고, 2) DORA 프레임워크를 이용한 도메인 병렬 강화학습으로 STEM·코딩·에이전틱(도구 활용) 과제에 각각 최적화한 모델을 융합, 파레토 최적에 가까운 단일 시스템을 형성한 뒤 일반 RL로 강건성과 정렬을 끌어올렸다. LongCat-Flash-Thinking은 이렇게 고도화된 파이프라인 덕분에 복잡한 문제해결 성능이 크게 향상됐다.

핵심 정리: LongCat-Flash-Thinking 한눈에

수학(MATH500 99.2)과 코딩(LiveCodeBench 79.4)에서 GPT-5에 근접하거나 추월 구간을 보이고, MiniF2F(pass@32 81.6) 정리 증명에서는 GPT-5(51.2)를 크게 앞섰다. 유해 콘텐츠 차단 93.7, 허위정보 탐지 93.0 등 안전성도 높으며, AIME-25에서 평균 토큰 사용량을 1만9653에서 6965로 64.5% 절감해 비용과 지연을 함께 줄였다.

벤치마크 성능

수학 추론에서는 MATH500 99.2로 GPT-5와 사실상 동률, OpenAI-o3와 Gemini 2.5-Pro를 앞섰다. 바이오·생명과학 추론인 VitaBench에서는 29.5로 GPT-5(29.3)를 근소하게 상회했고, AIME25·HMMT25 같은 경진대회형에서는 GPT-5에 약간 못 미치나 대다수 동급 모델을 능가했다. 일반 추론은 GPQA-Diamond에서 GPT-5 및 OpenAI-o3에 근접했고, ARC-AGI에서는 OpenAI·Gemini를 앞섰다(다만 GPT-5 최고점에는 미달). 코딩은 LiveCodeBench 79.4로 GPT-5에 1점 차로 근접, OJBench도 최상위권이다. 에이전틱 도구 사용은 τ²-Bench Telecom 83.1로 오픈 웨이트 모델 중 최고지만, GPT-5가 여전히 우세하다. 정리 증명은 MiniF2F에서 81.6(pass@32)로 새로운 SOTA를 세웠다. 안전성에서는 유해물 차단 93.7, 허위정보 93.0으로 동급·상위 폐쇄형 모델 대비 높은 점수를 기록했고, 프라이버시는 동등 수준을 유지했다.

오픈 액세스와 생태계

메이투안은 LongCat-Flash-Thinking API의 무료 일일 쿼터를 50만 토큰으로 확대하고, 심사를 거쳐 500만 토큰까지 제공한다. Claude Code 설정과의 연동도 지원하며, 퀵 스타트·변경 로그·FAQ 등 문서를 갱신했다. 모델 가중치는 Hugging Face와 GitHub에서도 제공된다. 모든 구성 요소는 MIT 라이선스로 공개되지만, 메이투안은 다운스트림 민감 영역 배포 전 안전성·공정성·도메인 적합성 검증을 권고한다. LongCat-Flash와 LongCat-Flash-Thinking을 아우르는 이 생태계는 연구 혁신, 대규모 배포 효율, 접근성까지 포괄한다.

엔터프라이즈 시사점

LLM 수명주기를 책임지는 엔지니어는 LongCat-Flash-Thinking을 활용해 정확도를 유지하면서도 토큰 사용을 절반 이상 절감, 추론 비용과 프로토타이핑 시간을 줄일 수 있다. 오케스트레이션 담당자는 도메인 병렬 RL로 태스크 간 거동 예측 가능성이 높아지고, SBO·Wide Expert Parallelism 등 배포 최적화와 결합해 처리량·지연·예산을 동시에 관리하기 쉬워진다. 데이터·보안 조직은 논리 집약적 변환과 품질 보증을 보다 효율적으로 수행하고, 높은 안전성 점수로 조직 리스크를 억제할 수 있다. 규제·보안을 고려하는 서구권 기업은 Hugging Face/GitHub 가중치를 내려받아 온프레미스 또는 VPC에서 운영하는 전략이 유효하다.

실제 적용 예시

홈페이지 제작 전 필수 체크리스트

목표 정의(콘텐츠 생성·코드 보조·QA 자동화 등), 배포 방식 결정(API 무료 쿼터 vs 온프레미스 가중치 운영), 데이터·프라이버시 검토(로그 익명화·접근 통제), 프롬프트 가이드라인/가드레일 설계(유해물·허위정보 필터 튜닝), 성능 기준 수립(도메인 검증셋·휴리스틱·휴먼 리뷰), SLO 설정(처리량/지연/비용, 초당 100+ 토큰 달성 여부), 개발 도구 연동(IDE·Claude Code·툴 플러그인), 모니터링/버전 관리(추론 로그, 에러 분석, 롤백 계획), 라이선스·컴플라이언스(MIT 라이선스 고지 포함) 등을 사전에 점검한다. 특히 LongCat-Flash-Thinking의 토큰 절감 특성을 고려해 캐시·사전 요약·사내 지식베이스 검색과의 결합 전략을 설계하면 효율을 극대화할 수 있다.

홈페이지 제작 프로세스 단계별 안내

요구사항 수집과 IA 설계 후, 와이어프레임에 맞춰 카피·이미지 설명문 초안을 LongCat-Flash-Thinking으로 생성하고, 프론트엔드 코드 스캐폴딩·컴포넌트 샘플을 생성해 개발 속도를 높인다. 빌드 단계에서는 SGLang 기반 최적화(MTP·SBO)로 프리뷰 응답 지연을 줄이고, 에이전틱 툴 호출을 결합해 SEO 메타 태그·오픈그래프·접근성 점검을 자동화한다. 스테이징에서는 안전 필터와 정책 검증(유해물·허위정보 차단), A/B 테스트로 문안·레이아웃을 개선하고, 릴리스 후에는 사용자 피드백과 로그를 활용해 프롬프트·가드레일을 지속 튜닝한다. 온프레미스 운영 시 Hugging Face/GitHub 가중치로 환경을 재현하고, VPC 내에서 비공개 데이터로 추가 미세조정을 수행해 도메인 적합성을 높인다. 이렇게 하면 추론 품질을 유지하면서도 토큰·지연·인프라 비용을 균형 있게 관리할 수 있다.