leangnews

Command Palette
Search for a command to run...

2025년 12월 16일 12:01

구글·UCSB, 예산 인지 스케일링으로 에이전트 비용·지연 절감

기사 요약

구글·UCSB 연구진이 Budget Tracker와 BATS를 제안해 에이전트의 도구·연산 예산 활용 효율을 높였다.
도구 호출 수가 비용과 지연을 좌우하는 실세계 작업에서, 프롬프트 기반 예산 표시만으로도 성능을 높이고 낭비를 줄였다.
BATS는 BrowseComp/HLE-Search에서 더 높은 정확도를 더 낮은 비용으로 달성해, 기업용 장기 과제에 실용적 대안을 제시한다.

도구·연산 예산을 아는 에이전트: 구글·UCSB의 새 프레임워크

구글과 UC 산타바바라 연구진이 대규모 언어모델(LLM) 에이전트의 도구 호출과 연산 비용을 체계적으로 관리하기 위한 두 가지 기법을 공개했다. 프롬프트 수준의 경량 모듈 Budget Tracker와, 보다 종합적인 예산 인지 스케일링(Budget Aware Test-time Scaling) 프레임워크 BATS가 핵심이다. 이들은 남은 추론·도구 사용 한도를 에이전트가 명시적으로 인지하도록 해, 비용과 지연을 통제하면서 성능을 끌어올리는 것을 목표로 한다.

도구 사용 스케일링의 과제

전통적 테스트-타임 스케일링은 “더 오래 생각하게” 하는 데 초점을 맞췄다. 그러나 웹 탐색 같은 에이전트 작업에서는 도구 호출 횟수가 탐색의 깊이와 폭을 사실상 결정한다. 이는 토큰 소비 증가, 컨텍스트 길이 확대, 시간 지연, 그리고 API 비용 상승으로 이어져 운영 부담을 키운다. 연구진은 단순히 더 많은 자원을 주는 것이 성능 향상으로 직결되지 않으며, 예산 감각이 없는 에이전트는 관련성 낮은 실마리에 수십 번의 호출을 낭비하며 막다른 길로 들어서기 쉽다고 지적했다.

경량 접근: Budget Tracker

Budget Tracker는 프롬프트만으로 동작하는 플러그인형 모듈로, 에이전트에 남은 자원 신호를 지속적으로 제공해 예산 인지적 도구 사용을 유도한다. 구글 구현에서는 예산 구간과 권장 사용 지침을 간단히 제시하고, 응답 단계마다 현재 소비량과 잔여 예산을 갱신해 이후 추론을 조건부로 조정하게 한다. 연구진은 순차 스케일링(출력 반복 개선)과 병렬 스케일링(독립 실행 다중 집계)을 모두 시험했으며, 검색·탐색 도구를 갖춘 ReAct(Reasoning+Acting) 루프 위에서 내부 토큰과 외부 도구 상호작용 비용을 함께 반영하는 통합 비용 지표로 평가했다. BrowseComp, HLE-Search 등 외부 검색이 필요한 정보탐색 QA 벤치마크에서 Gemini 2.5 Pro/Flash와 Claude Sonnet 4를 사용한 실험 결과, Budget Tracker는 다양한 예산 구간에서 성능을 일관되게 개선했다. 검색 호출 40.4% 감소, 탐색 호출 19.9% 감소, 전체 비용 31.3% 절감하면서도 유사한 정확도를 달성했고, 예산이 커질수록 효과가 계속 증대되어 일정 구간에서 성능이 정체되는 기본 ReAct 대비 우위를 보였다.

종합 프레임워크: BATS(Budget Aware Test-time Scaling)

BATS는 주어진 예산에서 성능을 극대화하도록 설계된 종합 프레임워크다. 실행 내내 남은 자원 신호를 유지하고 그에 맞춰 행동을 동적으로 조정한다. 계획 모듈은 단계별 투입 강도를 예산에 맞게 조절하고, 검증 모듈은 유망한 실마리를 “더 파고들지” 혹은 “피벗할지”를 결정한다. 도구 호출 응답은 추론 시퀀스에 증거로 누적되고, 후보 답안이 제안되면 검증 후 잔여 예산에 따라 계속 진행할지 새 시도를 시작할지 판단한다. 예산이 소진되면 LLM 심판이 검증된 답들 중 최적 해를 선택한다. 실행 전 과정에서 Budget Tracker가 사용량과 잔여 예산을 매 반복마다 갱신한다. 이렇게 예산 인지 스케일링을 구조화해, 비용 통제와 정확도 향상을 동시에 노린다.

실험 결과와 비용–성능

BATS는 BrowseComp, BrowseComp-ZH, HLE-Search에서 표준 ReAct 및 학습 기반 에이전트 대비 더 적은 도구 호출과 더 낮은 총비용으로 높은 성능을 달성했다. Gemini 2.5 Pro 기반 실험에서 BrowseComp 정확도는 24.6%(ReAct 12.6%), HLE-Search는 27.0%(ReAct 20.5%)를 기록했다. 또한 BrowseComp에서는 병렬 스케일링 기준과 비슷한 정확도를 약 23센트 비용으로 달성해, 50센트 이상이 든 비교 기준보다 비용–정확도 균형이 우수했다. 결과적으로 예산 인지 스케일링은 동일·낮은 비용에서 더 높은 성능, 혹은 동일 성능을 더 낮은 비용으로 달성하는 실질적 선택지를 제시한다.

엔터프라이즈 시사점

연구진은 이 효율성으로 복잡한 코드베이스 유지보수, 실사(due diligence), 경쟁 환경 조사, 컴플라이언스 감사, 다단계 문서 분석 등 장기·데이터 집약형 업무가 현실화될 수 있다고 본다. 자원을 스스로 운용하는 에이전트를 도입하려는 기업에겐 정확도와 비용의 균형 설계가 필수 요건이 된다. 연구진은 “추론과 경제성의 관계는 분리할 수 없게 될 것”이라며, 앞으로 모델이 ‘가치’를 추론해야 한다고 강조했다. 이러한 맥락에서 예산 인지 스케일링은 비용 통제와 성과 극대화를 동시에 달성하는 핵심 설계 원리로 부상한다.

실제 적용 예시

홈페이지 제작 전 필수 체크리스트

웹사이트 기획·개발에도 도구 호출(크롤링, 분석, 번역, A/B 테스트 등)과 클라우드 연산 예산이 직결된다. 착수 전 목적·성과지표(트래픽, 전환), 도구별 호출 상한과 우선순위, 예산 인지 스케일링 적용 범위(탐색·설계·검증 단계), 비용 모니터링 지표(호출당 비용, 지연, 품질)와 피벗 기준을 정의하라. 이렇게 명시적 예산 신호를 팀/에이전트에 제공하면 초기 조사 남용을 줄이고, 병목 단계에 예산을 재배분해 낭비를 방지할 수 있다.

홈페이지 제작 프로세스 단계별 안내

1) 계획: 페이지 구조와 마일스톤을 정하고 도구별 호출 예산을 배분. 2) 조사: 경쟁·키워드 리서치를 순차 스케일링으로 진행하되, 호출 한도와 검증 규칙을 병기. 3) 설계/작성: 생성형 도구 사용 시 섹션별 토큰/호출 상한을 설정하고 중간 산출물 검증을 의무화. 4) 구현/테스트: 오류·접근성·SEO 검증을 병렬 스케일링으로 수행하되, 각 러닝의 한도와 중지 조건을 명확히. 5) 검수/출시: 후보안을 LLM 심판 또는 팀 리뷰로 집계해 최종 선택. 전 과정에서 예산 상태를 지속 갱신해, 성과 대비 비용을 최적화한다.

최신기사

Ease Health, a16z서 4,100만 달러 유치…AI 네이티브 행동건강 운영체제 재정의

거래소 애그리게이터는 어떻게 암호화폐 인프라가 되었나: 사례와 시사점

알리바바 Qwen3.5-9B, OpenAI 120B 능가…오픈소스로 노트북에서도 구동

인튜잇, 40년 소상공인 데이터로 SaaSpocalypse 정면돌파

딥페이크보다 위험한 건 ‘속삭임’? 웨어러블 AI의 일상적 조작

AI의 '정렬 위장' 확산: 자율 에이전트 시대 보안 과제

과열된 AI와의 바이브 코딩: 구글 AI 스튜디오를 팀처럼 다루며 얻은 교훈

앤스로픽과 펜타곤 충돌: 기업에 필요한 상호운용성 전략

마이크로소프트 OPCD: 장문 시스템 프롬프트 제거해도 모델 성능 유지

기업의 MCP 도입 속도, 보안 통제보다 훨씬 빠르다