leangnews

2025년 10월 28일 09:00

구글 ‘Watch & Learn’ 프레임워크로 CUA 학습 데이터 병목 돌파

구글 ‘Watch & Learn’ 프레임워크로 CUA 학습 데이터 병목 돌파


기사 요약

  • Google Cloud와 DeepMind가 인간 주석 없이 원시 비디오에서 시연을 추출하는 Watch & Learn 프레임워크를 공개했다.
  • 역방향 동역학 모델(IDM)로 비디오를 주석 트래젝터리로 변환해 CUA 학습·미세조정과 ICL 예제로 활용한다.
  • OSWorld에서 범용·오픈소스 모델 성능이 각각 최대 3·11점 향상되어 기업의 영상 자산을 CUA 훈련 데이터로 전환할 길을 열었다.

개요

Google Cloud와 DeepMind 연구진이 컴퓨터 사용 에이전트(CUA)의 핵심 난제인 대규모 고품질 학습 데이터 확보 문제를 해결하기 위해 Watch & Learn(W&L) 프레임워크를 제안했다. 이 접근법은 인간 주석 없이 원시 비디오에서 자동으로 시연을 추출해 주석 트래젝터리로 변환하며, 학습(파인튜닝)과 추론 시 인컨텍스트 러닝(ICL) 예시로 모두 활용할 수 있다.

데이터 병목과 기존 접근의 한계

웹에는 복잡한 애플리케이션 사용법을 다루는 튜토리얼·스크린캐스트가 풍부하지만, 이를 CUA 학습에 쓰려면 작업 설명, 스크린샷, 액션으로 구성된 주석 트래젝터리로 변환해야 한다. 다중모달 LLM을 통한 자동 주석은 정밀도가 낮고 오류가 잦았으며, 셀프플레이 방식은 현실성 낮은 단순 사례를 만들어 실제 환경에 일반화하기 어렵다는 한계가 있었다.

Watch & Learn의 핵심 아이디어: 역방향 동역학

Watch & Learn은 문제를 “역방향 동역학(inverse dynamics)”으로 재정식화한다. 즉, 연속된 두 관찰이 주어졌을 때 그 변화를 만든 중간 액션을 예측하는 것이다. 이 방식은 학습이 용이하고, 규칙 기반 휴리스틱을 피하며, 다양한 앱 전반에 견고하게 일반화되는 것으로 보고됐다.

단계 1: IDM(역방향 동역학 모델) 학습

연구진은 에이전트가 실제 웹 페이지와 상호작용하며 수집한 50만 개 상태 전이(연속 관찰 2개와 그 사이 액션)에, 공개 데이터셋의 사람 주석 13만2천 개를 더해 IDM을 학습했다. 소형 트랜스포머 기반인 이 IDM은 전이 액션 예측에서 범용 기성 파운데이션 모델을 능가했다.

단계 2: 웹 비디오 → 주석 트래젝터리

YouTube 등에서 원시 비디오를 수집해 IDM으로 프레임 간 변화를 분석하고, 스크롤·클릭 등 환경 변화를 유발한 액션을 복원해 주석 트래젝터리로 패키징했다. 이 파이프라인으로 정확도 높은 액션 라벨을 포함한 53,125개 트래젝터리를 생성했다.

단계 3: 학습과 ICL에 이중 활용

생성한 트래젝터리는 특정 업무에 맞는 CUA 모델 학습에 쓰이거나, 추론 시 3~5개의 ICL 예시로 프롬프트에 삽입해 성능을 끌어올릴 수 있다. 연구진은 Gemini 2.5 Flash로 관찰/행동 예시에 추가 추론 주석을 부여해 ICL 품질을 더했다. 이러한 Watch & Learn의 이중 역할은 오픈소스 모델과 범용 멀티모달 에이전트 모두에 유연하게 통합된다.

벤치마크 결과: OSWorld

OSWorld 벤치마크에서 Watch & Learn으로 학습하거나 보강한 모델은 전 범주에서 성능이 향상됐다. ICL을 적용한 범용 모델은 최대 3점, W&L 데이터로 파인튜닝한 오픈소스 모델(UI-TARS-1.5, Qwen 2.5-VL)은 최대 11점 개선됐다. 모든 향상은 추가 수작업 주석 없이 달성되어, 웹 규모의 인간 워크플로가 실전 배치를 향한 CUA 발전의 실용적·확장 가능한 토대임을 보여준다.

실제 적용 예시

사내 맞춤 업무 자동화를 위한 W&L 기반 CUA

기업은 기존 교육 영상·회의 녹화 등 자산에서 Watch & Learn 파이프라인으로 주석 트래젝터리를 추출해 특정 내부 업무(리포트 작성, 재무 시스템 입력, 디자인 협업 등)에 특화된 CUA를 구축할 수 있다. 고가의 전용 모델 학습 없이도 ICL 예시만으로 빠르게 시범 적용이 가능하다.

영상 촬영 → IDM 주석화 → 배포까지의 프로세스

업무 수행 화면을 녹화한 뒤 IDM으로 스크롤·클릭 등 액션을 복원해 트래젝터리를 생성하고, 필요한 경우 Gemini 2.5 Flash로 이유 주석을 보강한다. 이렇게 만든 예시를 프롬프트에 넣거나 UI-TARS-1.5 같은 모델을 파인튜닝해 배포한다. Watch & Learn 파이프라인은 새로운 업무가 추가될 때마다 반복 적용하기 쉽다.

거버넌스와 성능 관리 체크포인트

영상 소스의 사용 권한을 확인하고(저작권·프라이버시), 생성된 트래젝터리의 품질을 표본 검수하며, OSWorld 등 표준 벤치마크와 사내 과제로 지속 평가한다. 모델·인프라 비용이 하락함에 따라 Watch & Learn 데이터로 주기적 재학습 또는 ICL 갱신을 수행해 성능 퇴화를 방지한다.

이 기사 공유하기