leangnews

2025년 10월 09일 05:00

구글, 웹 탐색·양식작성 자동화 ‘Gemini 2.5 Computer Use’ 공개

구글, 웹 탐색·양식작성 자동화 ‘Gemini 2.5 Computer Use’ 공개


기사 요약

  • 구글 딥마인드는 가상 브라우저로 웹 탐색·버튼 클릭·양식 작성까지 수행하는 LLM ‘Gemini 2.5 Computer Use’를 공개했다.
  • 모델은 Browserbase 데모와 Google AI Studio·Vertex AI를 통해 제공되며, 파일 시스템 접근은 없고 UI 조작과 텍스트 응답에 초점을 맞춘다.
  • 벤치마크에서 경쟁작 대비 높은 정확도와 낮은 지연을 보였고, 유료 전용 모델로서 세밀한 안전장치를 갖추되 가격 구조는 Gemini 2.5 Pro와 유사하다.

구글 ‘Gemini 2.5 Pro Computer Use’ 공개

오픈AI의 ChatGPT Agent(구 Operator), 앤스로픽의 Computer Use에 이어, 구글 딥마인드가 웹 상에서 실제 조작까지 수행하는 에이전트형 LLM을 내놨다. 새 모델 ‘Gemini 2.5 Pro Computer Use’는 사용자의 단일 프롬프트만으로 가상 브라우저를 통해 웹을 탐색하고, 정보를 수집하며, 버튼 클릭과 드롭다운 이동, 양식 작성 등 사이트 상의 동작을 수행한다. 순다르 피차이는 소셜 네트워크 X에서 “아직 초기 단계지만, 스크롤·양식 작성·드롭다운 네비게이션 등 웹과 상호작용하는 능력은 범용 에이전트로 가는 중요한 다음 단계”라고 말했다.

직접 소비자용으로는 제공되지 않고, 2024년 초 전 트윌리오 엔지니어 폴 클라인이 설립한 Browserbase와 파트너십을 통해 데모가 제공된다. Browserbase는 AI 에이전트·앱을 위한 가상 ‘헤드리스’ 브라우저를 제공하며, 유저를 위해 시각적 화면도 노출한다. 사용자는 스타트업이 선보인 ‘Browser Arena’에서 경쟁 모델과 나란히 비교 체험할 수 있다(동시에 선택 가능한 비교 모델은 하나). 개발자용으로는 Google AI Studio의 Gemini API와 Google Cloud Vertex AI 모델 선택기/앱 제작 플랫폼을 통해 접근할 수 있다. 이 모델은 2025년 3월 공개 후 여러 차례 개선된 Gemini 2.5 Pro의 능력을 바탕으로, 브라우저와 모바일 앱 등 사용자 인터페이스를 직접 다루는 데 초점을 맞췄다.

개요 및 포지셔닝

핵심 기능 요약 — Gemini 2.5 Computer Use

Gemini 2.5 Computer Use는 API나 정형 입력에만 의존하지 않고, 인간처럼 화면을 ‘보고’ 클릭·타이핑·스크롤·양식 입력·로그인 이후 화면 탐색 같은 UI 중심 과업을 자율적으로 수행하도록 설계됐다. Browserbase 데모에서는 테일러 스위프트 공식 사이트로 이동해 상단 프로모션(신보 스페셜 에디션 ‘The Life of A Showgirl’)을 요약하는 등 기본 과업을 성공적으로 처리했다. 또 다른 테스트에서 아마존에서 평점 높은 태양광 조명 검색을 지시하자, 사람 감지용 구글 검색 캡챠(“오토바이가 있는 칸을 모두 선택”)를 수초 만에 통과했으나 이후 과업 완료 단계에서 정지하는 모습도 확인됐다.

반면 OpenAI·Anthropic의 에이전트가 로컬 파일(프레젠테이션, 스프레드시트, 문서 등)을 생성·편집할 수 있는 것과 달리, Gemini 2.5 Computer Use는 현재 파일 시스템 접근이나 네이티브 파일 생성 기능을 제공하지 않는다. 출력은 제안된 UI 액션 또는 챗봇형 텍스트 응답으로 제한되며, 문서·파일 같은 구조화 결과물 생성은 개발자가 별도 코드나 서드파티 연동으로 처리해야 한다.

성능 지표

구글에 따르면, 인터페이스 제어 벤치마크에서 선도적 결과를 보였다. Browserbase 기반 Online-Mind2Web: 65.7%(Gemini 2.5) vs 61.0%(Claude Sonnet 4) vs 44.3%(OpenAI Agent). Browserbase WebVoyager: 79.9% vs 69.4% vs 61.0%. DeepMind AndroidWorld: 69.7% vs 62.1%(Claude); OpenAI는 접근 제한으로 미측정. OSWorld는 현재 미지원(경쟁 최고 61.4%). 또한 다른 브라우저 제어 솔루션 대비 낮은 지연 시간을 보고해 UI 자동화·테스트 같은 프로덕션 활용에 유리하다고 밝혔다.

동작 방식

Computer Use 기반 에이전트는 상호작용 루프에서 동작한다. 입력으로 사용자 과업 프롬프트, 인터페이스 스크린샷, 과거 행동 이력을 받아 분석한 뒤, 버튼 클릭이나 필드 입력 같은 권장 UI 액션을 산출한다. 결제 등 위험도가 높은 과업은 사용자 확인을 요청할 수 있다. 액션 실행 후 UI 상태가 갱신되고 새로운 스크린샷이 모델로 돌아가며, 과업 완료·오류·안전 결정까지 루프가 반복된다. 모델은 특화 도구 ‘computer_use’를 사용하고, Playwright 연동이나 Browserbase 샌드박스를 통해 커스텀 환경에 통합할 수 있다.

도입 사례

구글 내부 결제 플랫폼 팀은 실패한 테스트 실행의 60% 이상을 복구해 엔지니어링 비효율을 줄였다고 보고했다. 서드파티 에이전트 플랫폼 Autotab은 복잡한 데이터 파싱 과업에서 최대 18% 성능 향상을, Poke.com은 인터페이스 상호작용에서 경쟁 솔루션 대비 평균 50% 더 빠른 동작을 각각 확인했다. 또한 Project Mariner, Firebase Testing Agent, 검색의 AI Mode 등 구글 자체 제품 개발에도 활용되고 있다.

안전장치

소프트웨어 인터페이스를 직접 제어하는 특성상 다층 안전 체계를 적용한다. 각 단계별 안전 서비스가 실행 전 제안된 액션을 점검하며, 개발자는 특정 액션 차단·확인 요구 같은 시스템 지침을 정의할 수 있다. 구글의 금지 사용 정책을 침해할 수 있는 행동을 회피하도록 설계되었고, 예컨대 캡챠를 만나면 체크박스 클릭 액션을 생성하되 사용자 확인이 필요하다고 표시해 사람의 감독 없이 진행되지 않도록 한다.

기술 사양

기본 제공 UI 액션으로 click_at, type_text_at, scroll_document, drag_and_drop 등이 있으며, 사용자 정의 함수를 통해 모바일·커스텀 환경으로 확장 가능하다. 화면 좌표는 0–1000 정규화 스케일을 사용하고 실행 시 픽셀 단위로 변환된다. 이미지·텍스트 입력을 수용하며, 텍스트 응답 또는 함수 호출을 출력한다. 권장 화면 해상도는 1440×900이지만 다른 해상도도 지원한다.

요금 및 제공 형태

요금은 Gemini 2.5 Pro와 거의 동일한 토큰 기반 과금 구조를 따른다. 입력 토큰은 200,000 토큰 미만 프롬프트 기준 백만 토큰당 $1.25, 그 이상은 $2.50. 출력 토큰은 소량 응답 백만 토큰당 $10.00, 대량 응답은 $15.00. 차이는 제공 방식과 부가 기능이다. Gemini 2.5 Pro는 무료 티어를 제공(명시적 토큰 상한 미공개, 플랫폼별 레이트 제한·쿼터 가능)하며 초과 시 유료 전환된다. 반면 Gemini 2.5 Computer Use는 유료 전용으로 무료 접근이 없다. Pro에 제공되는 컨텍스트 캐싱(백만 토큰당 $0.31부터)과 Google 검색 그라운딩(일 1,500회 무료, 이후 1,000회당 $35)은 현재 Computer Use에 없다. 데이터 활용 면에서, 유료 티어의 Computer Use 출력은 구글 제품 개선에 사용되지 않는 반면, Pro 무료 티어 사용분은 명시적 옵트아웃 없으면 모델 개선에 반영될 수 있다.

실제 적용 예시

브라우저 자동화 전 필수 체크리스트

과업 범위와 성공 기준 정의(예: 로그인 후 대시보드 리포트 다운로드), 사용자 확인이 필요한 위험 액션 정책 수립, 권장 해상도(1440×900) 적용, 자격 증명·세션 만료·캡챠 처리 전략 수립, 파일 생성은 별도 코드·서드파티로 처리 계획 수립, 레이트 제한·쿼터 대비, 감사 로깅·재시도 전략 구성. 이러한 기본기를 갖춘 뒤 Gemini 2.5 Computer Use를 브라우저 제어 계층에 배치하면 안정성이 높아진다.

에이전트 구축 프로세스 단계별 안내

1) Browserbase 샌드박스에서 초기 프로토타입을 시연하고, 2) Google AI Studio 또는 Vertex AI에서 모델 엔드포인트를 설정한다. 3) Playwright 등 실행 러너와 연동해 스크린샷·행동 이력·함수 호출을 주고받는 상호작용 루프를 구현한다. 4) 결제·데이터 삭제 같은 위험 액션에는 사용자 확인 단계를 삽입하고, 5) 타임아웃·페이지 전환·동적 요소 로딩 오류에 대한 예외 처리·재시도를 추가한다. 6) 성능 벤치마크(정확도·지연)와 안전 점검을 모니터링하며, 7) 운영 환경에서 관측·로깅을 통해 지속적으로 프롬프트·정책을 개선한다. 이때 Gemini 2.5 Computer Use 특성(파일 시스템 비지원, 함수 호출 중심 출력)을 전제로 결과물 생성 파이프라인을 별도로 설계해야 한다.

이 기사 공유하기