leangnews

2025년 12월 03일 12:02

Arcee, Apache 2.0로 공개한 미국산 오픈웨이트 Trinity 모델

Arcee, Apache 2.0로 공개한 미국산 오픈웨이트 Trinity 모델


기사 요약

  • Arcee가 미국 내에서 전면 사전학습한 오픈웨이트 전문가 혼합(MoE) 기반 Trinity Mini와 Trinity Nano Preview를 Apache 2.0으로 공개했다.
  • 새 AFMoE 아키텍처로 장문맥 추론과 효율을 강화했으며, Trinity Mini는 MMLU 84.95 등 주요 벤치마크에서 경쟁력을 보였다.
  • DatologyAI의 데이터 커리큘럼과 Prime Intellect의 인프라를 발판으로 420B 규모 Trinity Large를 2026년 1월 출시할 계획이다.

미국에서 끝단까지 학습된 오픈웨이트 Trinity 모델 공개

Arcee AI가 오픈웨이트 전문가 혼합(MoE) 계열의 Trinity 모델 첫 라인업인 Trinity Mini와 Trinity Nano Preview를 공개했다. 두 모델은 미국 인프라 위에서 아파치 2.0 라이선스로 배포되며, 개발자는 Hugging Face와 OpenRouter를 통해 자유롭게 활용·수정·미세조정할 수 있다.

배경: 오픈웨이트 주도권 경쟁

중국발 MoE 가속과 미국의 반격

2025년 오픈웨이트 대형 언어모델의 최전선은 알리바바 Qwen, DeepSeek, Moonshot, Baidu 등 중국 연구진이 주도했다. OpenAI도 gpt-oss-20B/120B를 내놨지만 대체재가 많아 확산이 더뎠다. Arcee는 Trinity 모델로 미국 내 투명하고 소유 가능한 개방형 대안을 제시한다.

출시 개요와 로드맵

Trinity 모델 라인업과 라이선스

Trinity Mini(26B, 토큰당 활성 3B)는 고처리량 추론, 함수 호출, 툴 사용에 최적화됐고, Trinity Nano Preview(6B, 비임베딩 활성 약 8억)는 대화 지향 성향이 강하지만 극단 사례 안정성은 낮다. 두 모델은 아파치 2.0으로 공개된다. 420B 파라미터의 Trinity Large(토큰당 활성 13B)는 2026년 1월 출시 예정이다.

아키텍처 하이라이트

AFMoE: 어텐션-퍼스트 Mixture-of-Experts

두 모델은 Arcee의 AFMoE(Attention-First MoE)를 채택했다. 이는 전역 희소성, 로컬/글로벌 어텐션, 게이티드 어텐션을 통합해 장문맥 추론과 안정성을 높인다. 시그모이드 라우팅을 사용해 보조 손실 없이 전문가 선택을 부드럽게 가중하고, 깊이 스케일드 정규화로 깊은 네트워크의 학습 발산을 완화한다.

라우팅과 어텐션 스택의 긴밀한 결합

AFMoE는 그룹드-쿼리 어텐션, 게이티드 어텐션, 로컬/글로벌 어텐션 리듬을 조합해 최근 문맥과 핵심 단서를 균형 있게 반영한다. 전통적 랭킹 기반 라우팅 대비 다중 관점을 유연하게 혼합해 안정적 추론과 효율적 스케일링을 달성한다.

성능, 컨텍스트, 효율

벤치마크 지표와 실사용 지연

Trinity Mini는 128 전문가, 토큰당 8 활성 + 1 공유 전문가 구조를 채택하고, 제공사에 따라 최대 131,072 토큰 컨텍스트를 지원한다. 벤치마크는 MMLU(제로샷) 84.95, Math-500 92.10, GPQA-Diamond 58.55, BFCL V3 59.67을 기록했으며, Together·Clarifai 환경에서 초당 200+ 토큰 처리와 3초 미만 E2E 지연으로 대화형 앱과 에이전트 파이프라인에 적합하다. Trinity Nano는 규모가 작아 극단 사례 안정성은 낮지만, 토큰당 활성 파라미터 10억 미만의 희소 MoE 타당성을 보여준다.

접근, 가격, 생태계

배포 채널과 API 요금

Trinity Mini는 Hugging Face, OpenRouter, chat.arcee.ai에서 이용 가능하다. OpenRouter 기준 API 요금은 입력 백만 토큰당 $0.045, 출력 백만 토큰당 $0.15이며, 한시적 무료 티어를 제공한다. Benchable.ai, Open WebUI, SillyTavern 등과 통합됐고, Transformers, VLLM, LM Studio, llama.cpp를 지원한다.

데이터 전략: DatologyAI

잡음·저작권 리스크를 줄인 커리큘럼

Arcee는 데이터 통제를 최우선 가치로 삼았다. DatologyAI는 7T 범용, 1.8T 고품질 텍스트, 1.2T STEM(수학·코드)로 구성된 총 10T 토큰 커리큘럼을 구축해 Trinity 모델 학습의 품질과 확장성을 높였다. Trinity Large용으로는 10T 합성 + 10T 큐레이션 웹 데이터로 20T 토큰 코퍼스를 준비했다.

인프라 파트너: Prime Intellect

효율과 투명성 중심의 훈련 스택

Prime Intellect는 512 H200 GPU, 커스텀 bf16 파이프라인, 고효율 HSDP 병렬화, 수정된 TorchTitan 런타임을 제공해 Trinity Mini/Nano 학습을 뒷받침했다. Trinity Large는 2048 B300 GPU 클러스터에서 학습 중이다. 분산 컴퓨팅 이상(理想)과 달리, 100B+ 규모에서는 중앙집중형 인프라가 효율적임을 전제로 실행에 초점을 맞췄다.

비즈니스 맥락과 모델 주권

엔터프라이즈를 위한 소유 가능한 오픈웨이트

Arcee는 지시튜닝을 넘어 사전학습 전 과정을 통제함으로써 규제 준수와 목표 정렬을 확보하려 한다. “모델과 제품의 경계가 이동하는” 상황에서, 가중치와 학습 파이프라인까지 소유하는 것이 핵심이라는 메시지를 Trinity 모델로 증명하고 있다.

다음 단계

Trinity Large와 생태계 확장

420B 규모의 Trinity Large는 AFMoE를 더 큰 전문가 집합으로 확장해 2026년 1월 공개될 예정이다. 성공 시, 미국 내에서 처음부터 끝까지 학습한 개방형 프런티어 모델 중 하나로 자리매김하며, Trinity 모델 라인업의 전략적 가치를 강화할 전망이다.

이 기사 공유하기