leangnews
Command Palette
Search for a command to run...
2025년 10월 27일 09:00
Ring-1T 내부: 앤트그룹, 1조 파라미터 추론 모델로 RL 병목 돌파
기사 요약
- 알리바바 계열 앤트그룹이 1조 파라미터 오픈소스 추론 모델 Ring-1T의 기술 세부를 공개했다.
- Ling 2.0 아키텍처와 Ling-1T-base를 바탕으로 토큰당 약 500억 활성 파라미터, 최대 12만8천 토큰을 지원한다.
- IcePop·C3PO++·ASystem으로 강화학습 스케일링을 해결해 벤치마크에서 GPT-5 다음, 오픈웨이트 모델 중 최고 성능을 보였다.
Ring-1T 개요: 1조 파라미터 오픈소스 추론 모델
앤트그룹은 Ring-1T를 “총 1조 파라미터를 갖춘 최초의 오픈소스 추론 모델”로 소개하며, OpenAI의 GPT-5와 o-시리즈, 구글 Gemini 2.5와 정면 경쟁을 예고했다. Ring-1T는 수학·논리 추론, 코드 생성, 과학 문제 해결에 최적화되었으며, 중국과 미국 간 AI 주도권 경쟁의 한복판에서 기술 역량을 과시하는 모델로 자리매김한다.
Ring-1T 아키텍처와 스펙: Ling 2.0 기반, 대용량 컨텍스트
Ring-1T는 9월 프리뷰 공개 이후 Ling 2.0과 동일한 아키텍처를 채택하고, 최신 Ling-1T-base로 학습을 진행했다. 혼합전문가(MoE) 설계를 통해 토큰당 약 500억 개의 활성 파라미터만 사용하면서 총 파라미터 1조 규모를 달성해 효율을 높였고, 최대 128,000 토큰 컨텍스트를 지원한다. 이러한 설계는 자연어만으로도 고난도 벤치마크에서 최첨단 성능을 달성하도록 돕는다.
강화학습 스케일링 혁신: IcePop, C3PO++, ASystem
초거대 Ring-1T를 학습하기 위해 앤트그룹은 상호 연결된 세 가지 기법을 도입했다. 첫째, IcePop은 이중 마스킹 보정(Double-sided masking calibration)으로 노이즈가 많은 그래디언트 업데이트를 억제해 추론 속도를 해치지 않으면서 학습 안정성을 높이고, 특히 MoE와 장문 CoT 환경에서 심화되는 학습-추론 불일치를 완화한다. 둘째, C3PO++는 롤아웃을 병렬 처리 가능한 조각으로 나누고, 새로운 데이터를 생성하는 추론 풀과 결과로 모델을 갱신하는 학습 풀을 분리해 GPU 유휴 시간을 줄인다. 또한 토큰 예산을 두어 처리량을 정교하게 제어, 대규모 분산 환경에서 효율을 극대화한다. 셋째, ASystem은 SingleController+SPMD(단일 프로그램·다중 데이터) 구조를 채택해 비동기 운영을 가능하게 하여, 초대형 파이프라인의 병목을 해소한다.
벤치마크 결과: GPT-5 다음, 오픈웨이트 최강
앤트그룹은 Ring-1T를 수학, 코딩, 논리 추론, 일반 과제 벤치마크에 투입해 DeepSeek-V3.1-Terminus-Thinking, Qwen-35B-A22B-Thinking-2507, Gemini 2.5 Pro, GPT-5 Thinking 등과 비교했다. 그 결과 Ring-1T는 다수 지표에서 GPT-5에 이어 2위를 기록했으며, 오픈웨이트 모델 가운데서는 최고 성능을 보였다. AIME 25 리더보드에서는 93.4%를 기록했고, 코드 영역에서는 DeepSeek과 Qwen을 앞서 데이터셋 합성과 RL 스케일링 전략의 효과를 입증했다.
산업적 의미: 중국의 속도전과 Ring-1T의 파급력
Ring-1T는 DeepSeek의 등장 이후 가속된 중국의 대형 모델 경쟁 흐름 위에서 나왔다. 알리바바의 Qwen3-Omni(텍스트·이미지·오디오·비디오 네이티브 통합)와 DeepSeek-OCR 등 잇단 발표와 함께, Ring-1T가 제시한 IcePop·C3PO++·ASystem은 초거대 모델의 강화학습 병목을 뚫는 실질적 해법으로 주목된다. 이로써 미·중 간 AI 패권 경쟁은 한층 가열되고 있으며, Ring-1T는 차세대 에이전트형 애플리케이션을 뒷받침할 기술적 발판으로 평가된다.