leangnews

2025년 10월 13일 07:00

Together AI, ATLAS 적응형 스페큘레이터로 추론 성능 400% 가속

Together AI, ATLAS 적응형 스페큘레이터로 추론 성능 400% 가속


기사 요약

  • 엔터프라이즈 AI 확장 시 정적 스페큘레이터의 한계로 추론 성능이 저하되는 문제를 Together AI가 해결책으로 제시했다.
  • 실시간 트래픽에서 학습하는 ATLAS 적응형 스페큘레이터는 최대 400%까지 속도를 높이고, 완전 적응 시 500토큰/초 처리량을 달성했다.
  • 스페큘레이티브 디코딩과 FP4 양자화 등 소프트웨어 최적화가 전용 하드웨어와의 격차를 좁히며 엔터프라이즈 추론 생태계를 재편하고 있다.

보이지 않는 성능 병목: 정적 스페큘레이터의 한계

엔터프라이즈가 AI 배포를 확대하면서 정적 스페큘레이터의 도메인 부적합 문제가 누적돼 추론 속도가 점차 떨어지고 있다. 스페큘레이터는 대형 언어모델 옆에서 다수 토큰을 미리 제안하고, 본 모델이 병렬 검증해 처리량을 높이는 스페큘레이티브 디코딩의 핵심 구성요소다. 그러나 한 번 학습해 고정 배포된 정적 모델은 워크로드가 변화하면 수용률이 급락해 가속 이점이 희석된다.

ATLAS 적응형 스페큘레이터의 동작 원리

듀얼 스페큘레이터 구조와 컨트롤러

ATLAS는 정적 대형 스페큘레이터를 속도의 하한선으로 두고, 경량 적응형 스페큘레이터가 실시간 트래픽에서 지속 학습하도록 설계됐다. 컨피던스 인지 컨트롤러가 상황에 따라 어느 스페큘레이터를 쓸지 고르고, 신뢰도에 따라 룩어헤드 길이를 조절해 수용률과 초안 지연 간 균형을 잡는다. Ben Athiwaratkun은 “초기엔 정적 모델로 즉각 가속하고, 적응형 모델이 학습될수록 속도가 점진적으로 커진다”고 설명했다.

노브 없이 자동 최적화

사용자는 별도 파라미터 튜닝이 필요 없고, 시스템이 내부적으로 최적 구성을 찾아 적용한다. Tri Dao는 “워크로드가 바뀌면 정적 스페큘레이터의 성능이 떨어지지만, ATLAS 적응형 스페큘레이터가 실사용 트래픽에서 학습해 이를 상쇄한다”고 말했다.

성능: 소프트웨어 최적화가 전용 칩을 추월

완전 적응 시 ATLAS는 DeepSeek-V3.1에서 초당 500토큰을 달성했으며, Nvidia B200 GPU 상에서 Groq 등 특수 추론 하드웨어와 맞먹거나 능가하는 수치를 보였다. Together의 ‘Turbo’ 최적화 묶음이 누적 효과를 내는데, FP4 양자화가 FP8 대비 약 80% 가속을, 정적 Turbo Speculator가 추가로 80~100%를 더한다. 이 위에 ATLAS 적응형 스페큘레이터가 중첩되어 표준 엔진(vLLM, TensorRT-LLM) 대비 큰 개선을 기록한다.

메모리-연산 트레이드오프: 스페큘레이티브 디코딩의 본질

현대 추론은 메모리 바운드가 되기 쉽다. 토큰을 한 개씩 생성하면 메모리 접근이 병목이 되고 GPU 연산 유닛은 대기한다. 스페큘레이터가 여러 토큰을 한꺼번에 제안하고 본 모델이 동시 검증하면, 총 연산량은 비슷해도 메모리 접근 횟수는 줄어들어 유휴 연산 자원을 유의미하게 활용할 수 있다. 이로써 지연은 낮추고 처리량은 높아진다.

‘지능형 캐시’에 비유되는 적응 방식

전통 캐시는 동일 쿼리의 완전 일치를 저장·재사용하지만, ATLAS 적응형 스페큘레이터는 실시간 패턴을 학습해 비슷한 코드베이스나 사용 행태에서 더 그럴듯한 토큰 시퀀스를 예측한다. 동일 입력이 아니어도 점차 예측력이 향상되어 수용률과 디코딩 속도가 동반 상승한다.

적용 사례: RL 훈련과 변화하는 워크로드

강화학습에서는 정책이 수시로 바뀌어 정적 스페큘레이터가 금세 불일치에 빠진다. ATLAS 적응형 스페큘레이터는 분포 이동에 연속 대응해 정렬 상태를 유지한다. 또한 챗봇에서 코드 생성, 도구 호출, 업무 자동화 등으로 용도가 확장되는 엔터프라이즈 환경에서도 실사용 패턴을 즉시 반영해 성능 저하를 막는다. 특정 코드베이스에 대한 ‘바이브 코딩’ 상황에서도 학습 데이터에 없던 파일로 빠르게 특화된다.

제공 현황과 생태계에 주는 의미

ATLAS는 Together AI 플랫폼의 전용 엔드포인트에서 추가 비용 없이 제공되며, 80만 명 이상의 개발자가 최적화를 활용할 수 있다. 2023년 출범한 회사는 올해 3억500만 달러를 조달하며 추론 최적화 역량을 고도화했다. 통합 시스템은 상용이나, 일부 기법은 오픈소스 생태계(vLLM 등)에 영향을 줄 가능성이 있다. 메시지는 분명하다. ATLAS 적응형 스페큘레이터 같은 소프트웨어 최적화만으로도 범용 하드웨어에서 전용 실리콘에 필적하는 성능을, 더 낮은 비용으로 구현할 수 있다.

핵심 포인트 요약

정적 모델의 도메인 드리프트 문제를 실시간 학습으로 상쇄하고, 메모리 병목을 완화하는 스페큘레이티브 디코딩으로 처리량을 극대화한다. ATLAS 적응형 스페큘레이터는 표준 엔진 대비 대폭의 가속을 제공하며, 소프트웨어 혁신이 하드웨어 격차를 좁히는 방향으로 추론 생태계를 재편하고 있다.

이 기사 공유하기