leangnews

2025년 12월 05일 10:01

엔비디아, 80억 매개변수 오케스트레이터로 도구 활용 최적화하는 RL 프레임워크 공개

엔비디아, 80억 매개변수 오케스트레이터로 도구 활용 최적화하는 RL 프레임워크 공개


기사 요약

  • 엔비디아와 홍콩대 연구진이 소형 모델이 다양한 도구와 LLM을 조율하는 80억 매개변수 오케스트레이터를 공개했다.
  • ToolOrchestra RL로 학습된 이 오케스트레이터는 대형 모델 대비 낮은 비용·지연으로 높은 정확도를 달성하며 사용자 선호까지 반영한다.
  • 엔터프라이즈 환경에서 비용, 속도, 맞춤성을 모두 갖춘 도구 오케스트레이션 접근법으로 확장 가능한 AI 에이전트 구축을 제시했다.

개요

엔비디아와 홍콩대 연구진이 공개한 Orchestrator는 80억 매개변수의 소형 모델로, 다양한 도구와 대형언어모델(LLM)을 단계적으로 호출·결합해 복잡한 문제를 해결한다. ToolOrchestra라는 강화학습(RL) 프레임워크로 학습된 이 오케스트레이터는 더 큰 모델 대비 비용과 지연을 크게 줄이면서 정확도와 사용자 선호 정렬까지 달성했다.

도구 오케스트레이션 패러다임으로의 전환

기존 에이전트는 단일 거대 모델에 웹 검색, 계산기 같은 기본 도구만 붙이는 방식이 주류였다. 연구진은 인간이 추론 과정에서 전문가, 소프트웨어 시스템 등 ‘자신을 확장하는’ 자원을 수시로 활용하듯, LLM도 다양한 역량의 도구와 상호작용해야 한다고 주장한다. 경량 오케스트레이터가 복잡한 과제를 분해하고, 수학·코드 생성 등 전문화된 ‘지능형 도구’와 다른 LLM을 적절한 순서로 호출해 해결하는 것이 핵심이다.

ToolOrchestra: 보상으로 다듬은 오케스트레이터

ToolOrchestra는 소형 언어모델을 오케스트레이터로 훈련하는 RL 방법론이다. 도구는 이름·설명·파라미터를 담은 단순 JSON 스펙으로 정의되며, 모델은 어떤 도구를 언제, 어떻게 호출하고 다중 턴에서 출력을 어떻게 결합할지 학습한다. 보상은 정답 정확도, 비용·지연 효율, 사용자 선호 정렬의 세 축을 균형 있게 반영한다. 과도한 연산 사용에는 패널티를 부여하고, 프라이버시 이유 등으로 사용자가 선호한 오픈소스 모델을 선택하면 보상한다. 연구진은 10개 도메인에서 검증 가능한 예제를 자동 생성하는 데이터 파이프라인도 구축했다.

소형이지만 강력한 성과: 8B Orchestrator

Qwen3-8B 기반의 오케스트레이터는 HLE(PhD 급 난이도), FRAMES, Tau2-Bench 등에서 도구 미사용 시 강력한 모델도 고전함을 확인하는 한편, 도구 추가가 성능은 높이되 비용·지연을 크게 키우는 딜레마를 지적했다. 대조적으로 8B 오케스트레이터는 HLE에서 기존 방법을 크게 앞서면서 계산 비용은 극히 낮게 유지했다. Tau2-Bench의 함수 호출 평가에서는 단계의 약 40%만 대형 모델(예: GPT-5)을 호출하고 나머지는 저비용 옵션으로 스케줄링하면서, 매 단계 대형 모델만 쓰는 에이전트보다 높은 성능을 보였다. RL로 학습된 오케스트레이터는 새로운 과제에서도 전략을 유연하게 조정해 높은 일반 추론 능력을 드러냈다.

엔터프라이즈 적용성, 일반화, 라이선스

오케스트레이터는 학습 시 보지 못한 모델·가격 체계에도 잘 일반화해, 공용·사내·맞춤형 모델과 도구가 혼재하는 기업 환경에 적합하다. 낮은 비용과 빠른 속도, 정책·선호 기반 제어 가능성이 결합되어 확장 가능한 고급 AI 에이전트 구축에 실용적이다. 현재 모델 가중치는 비상업적 라이선스로 제공되며, 학습 코드는 Apache 2.0으로 공개되었다.

전망: 재귀적 오케스트레이터로 나아가기

연구진은 지능 상한을 끌어올리고 점점 복잡해지는 에이전틱 작업의 효율을 높이기 위해, 더 정교한 재귀적 오케스트레이터 시스템으로 발전할 비전을 제시한다. 도구 오케스트레이션이 성능·경제성·통제 가능성을 함께 달성하는 길이라는 점에서, 차세대 엔터프라이즈 AI의 유력한 설계 패턴으로 주목된다.

이 기사 공유하기