leangnews
Command Palette
Search for a command to run...
2025년 10월 09일 04:00
AUI ‘Apollo-1’, 엔터프라이즈 AI 에이전트 신뢰성의 돌파구
기사 요약
- 대화형 AI가 발전했지만, 브라우저 작업 수행 등 과업 완수의 신뢰성은 여전히 낮아 Terminal-Bench Hard는 30퍼센타일대, TAU-Bench Airline 최고 통과율도 56%에 그칩니다.
- AUI의 Apollo-1은 ‘상태 기반 뉴로-심볼릭 추론’과 System Prompt를 통해 정책 준수 행동을 결정론적으로 보장하며 TAU-Bench Airline 92.5% 등 높은 성능을 보였습니다.
- AUI는 LLM의 보완재로 Apollo-1을 제시했고, 포춘 500 파일럿·구글 전략 파트너십과 함께 2025년 11월 일반 출시(음성·이미지 지원, API·문서 공개)를 예고했습니다.
엔터프라이즈 AI 에이전트 신뢰성의 현주소
10년 넘게 대화형 AI는 “대화 그 이상”을 약속해 왔지만, 실제 사람을 대신해 과업을 신뢰성 있게 완료하는 영역은 아직 풀리지 않았습니다. ChatGPT, Gemini, Claude 같은 LLM이 추론·설명·코딩 능력을 키웠어도, 제3자 벤치마크인 Terminal-Bench Hard에서 상위 30퍼센타일대에 그치며 기업이 요구하는 신뢰성에 못 미칩니다. 항공권 탐색·예약을 시험하는 TAU-Bench Airline에서도 최고 성능(Claude 3.7 Sonnet)이 통과율 56%로, 절반 가까이 실패합니다. 뉴욕의 AUI(Augmented Intelligence)는 이 과제를 풀어 엔터프라이즈가 믿고 맡길 수 있는 에이전트를 만들었다고 주장합니다.
Apollo-1: 상태 기반 뉴로-심볼릭 추론
AUI의 신규 파운데이션 모델 ‘Apollo-1’(현재 프리뷰)은 ‘상태(stateful)를 유지하는 뉴로-심볼릭 추론’ 원리에 기반합니다. LLM 회의론자인 Gary Marcus도 지지해온 하이브리드 아키텍처로, 매 상호작용에서 일관되고 정책을 준수하는 결과를 보장하도록 설계됐습니다. AUI는 대화형 AI를 ‘개방형 대화’와 ‘과업 지향 대화’로 나누며, 후자는 확실성이 필수라고 강조합니다. 그들이 말하는 확실성은 “아마도 수행”과 “거의 항상 수행”의 차이이며, Apollo-1은 TAU-Bench Airline에서 92.5% 통과율을 기록했다고 밝혔습니다. 예컨대 “200달러 초과 환불은 신분 확인 필수”, “항공권 업그레이드는 이코노미 전에 비즈니스 우선 제안” 같은 것은 선호가 아니라 ‘규정’이며, 순수 생성 접근만으로는 이런 행동 확실성을 담보하기 어렵다는 입장입니다.
패턴 매칭에서 예측 가능한 행동으로
팀은 트랜스포머 LLM이 본질적으로 ‘그럴듯한 텍스트’를 생성할 뿐, ‘보장된 행동’을 내놓지는 못한다고 말합니다. LLM에 “결제 전에는 항상 보험을 제안하라”고 해도 대개 그럴 뿐이고, Apollo-1은 규칙을 구성하면 매번 그렇게 작동한다는 것입니다. 차이는 구조에서 나옵니다. 트랜스포머가 다음 토큰을 예측한다면, Apollo-1은 대화에서 다음 ‘액션’을 예측하며, 타입이 명시된 심볼릭 상태(typed symbolic state) 위에서 동작합니다. 심볼릭 계층은 의도·엔터티·파라미터 같은 구조를, 뉴럴 계층은 언어 유창성을 담당하고, 그 사이에서 뉴로-심볼릭 리저너가 결정을 내립니다. 인코더가 자연어를 심볼릭 상태로 변환하고, 상태 머신이 이를 유지·갱신하며, 디시전 엔진이 다음 액션을 정하고, 플래너가 실행하고, 디코더가 결과를 다시 언어로 바꾸는 ‘폐쇄형 추론 루프’를 과업 완료까지 반복해 확률이 아닌 결정론을 확보합니다.
System Prompt: 도메인 불문 ‘행동 계약’
Apollo-1은 특정 챗봇이나 개별 자동화가 아니라, 과업 지향 대화를 위한 도메인 불문 파운데이션 모델로 설계됐습니다. AUI가 말하는 System Prompt를 통해 금융·여행·리테일·보험 등으로 손쉽게 구성할 수 있습니다. 이는 단순 설정 파일이 아니라 ‘행동 계약’으로, 관심 상황에서 에이전트가 반드시 어떻게 행동해야 하는지를 명세하면 그 행동이 실행됩니다. 조직은 의도·파라미터·정책 같은 심볼릭 슬롯과 도구 사용 경계, 상태 의존 규칙을 프롬프트에 담을 수 있습니다. “알레르기 언급 시 식당에 반드시 통지”, “결제 3회 실패 시 서비스 중단” 같은 규칙이 통계가 아니라 결정론적으로 실행되며, 이러한 접근은 엔터프라이즈 AI 에이전트 신뢰성에 직결됩니다.
벤치마크로 본 엔터프라이즈 AI 에이전트 신뢰성 향상
AUI의 여정은 2017년, 6만 명 규모의 인간 상담 인력이 처리한 수많은 과업 지향 대화를 기호화하는 작업에서 시작됐습니다. 그 결과 절차적 지식(단계·제약·흐름)과 서술적 지식(엔터티·속성)을 분리하는 심볼릭 언어를 만들었고, “배달·청구·주문관리 등은 보편적 절차 패턴을 공유한다”는 통찰을 기반으로 결정론적 계산을 구현했습니다. 자사 평가에 따르면 Apollo-1은 τ/TAU-Bench Airline에서 90%대 과업 완수를 달성(Claude-4는 60%), Google Flights 실시간 예약 채팅 83%(Gemini 2.5-Flash 22%), Amazon 리테일 시나리오 91%(Rufus 17%)를 기록했습니다. AUI는 이 수치가 벤치마크 자료(VentureBeat 공유 및 웹사이트 게시)에 근거한 것이라며, “차원이 다른 신뢰성”이라고 강조합니다.
LLM의 보완재, ‘말하는’ 대화에서 ‘행동하는’ 대화로
AUI는 Apollo-1을 LLM의 대체재가 아니라 필수 보완재로 제시합니다. “트랜스포머는 창의적 확률을, Apollo-1은 행동의 확실성을 최적화한다”는 설명처럼, 두 접근이 합쳐져 대화형 AI의 스펙트럼을 완성한다는 구상입니다. 현재 금융·여행·리테일 등 포춘 500 일부와 제한적 파일럿을 진행 중이며, 구글과의 전략적 파트너십도 확인했습니다. 2025년 11월 일반 출시 때 API와 전체 문서, 음성·이미지 기능을 공개할 계획이며, 관심 기업은 웹사이트에서 정보를 신청할 수 있습니다. 곧 공식 발표도 예고했습니다. 결국 목표는 “말”이 아니라 “실행”을 보장하는 AI이며, 엔터프라이즈 AI 에이전트 신뢰성을 찾는 조직에 Apollo-1이 대화와 실행의 간극을 메우는 해법이 될 수 있습니다.