leangnews
Command Palette
Search for a command to run...
2026년 02월 26일 18:21
시각적 모방 학습: Guidde, 전문가 비디오로 에이전트 훈련
기사 요약
- Guidde가 PSG Equity 주도로 5천만 달러 시리즈 B 투자를 유치하며, 정적 문서 대신 전문가 화면 녹화를 ‘Video Ground Truth’로 활용해 에이전틱 AI를 훈련한다.
- 촬영 중 클릭·스크롤·DOM 변화 등 텔레메트리를 수집해 VLA 학습 세트와 디지털 월드 모델을 만들고, Magic Redaction으로 민감정보를 자동 마스킹한다.
- Create·Broadcast·Discover 3가지 제품으로 사람과 에이전트를 동시에 교육하며, 제작 시간 41% 단축·인바운드 티켓 34% 감소 등 효과를 입증했다.
문서가 아닌 비디오에서 시작하는 자동화
기업의 디지털 전환 ‘라스트 마일’은 잊힌 PDF와 오래된 매뉴얼로 막혀 왔다. Guidde는 정적 문서 대신 전문가의 화면 녹화를 ‘Video Ground Truth’로 삼아 에이전틱 AI가 실제 업무 흐름을 모사하도록 훈련한다. 이 접근은 시각적 모방 학습을 통해 사람처럼 UI를 보고 이해하는 에이전트를 만드는 데 초점을 맞춘다. Guidde는 PSG Equity가 주도한 5천만 달러 시리즈 B 투자를 유치하며 이 ‘지식 인프라’ 공백을 정면 돌파하겠다고 밝혔다.
기술: 비디오 캡처에서 디지털 월드 모델로
텔레메트리로 강화한 VLA 학습 세트
시각 모방 학습 기반 ‘Video Ground Truth’
Guidde는 단순 픽셀을 녹화하는 수준을 넘어, 클릭·드래그·스크롤·입력 같은 모든 상호작용과 미세한 지연, 스크롤 깊이까지 수집한다. 동영상 프레임과 정합된 메타데이터·DOM 변화까지 캡처해 Vision-Language-Action(VLA) 학습 세트로 변환하고, 이를 토대로 기업 소프트웨어의 디지털 월드 모델을 구축한다. 이 데이터 모트(해자)는 에이전트가 레거시 UI도 사람 수준의 공간 인지로 추론하도록 뒷받침한다.
보안·프라이버시: Magic Redaction
캡처 과정에서 비밀번호·결제정보 등 민감 데이터를 자동 가림 처리해 유출 위험을 차단하며, 자료는 HIPAA 준수 수준을 충족하도록 설계됐다. 편집 시 이력이 모델로 되먹임되는 피드백 루프를 통해 같은 실수가 반복되지 않도록 지속 개선한다.
제품: 조직 성숙도에 맞춘 3가지 기둥
Guidde Create
주제 전문가가 몇 분 만에 워크플로를 문서·가이드로 전환한다. ‘매직 캡처’ 후 구조화된 내러티브 스크립트와 전문 음성 합성이 즉시 생성돼, 과거 수주 걸리던 제작이 초단축된다.
Guidde Broadcast
넷플릭스식 개인화 추천 엔진으로, 사용자가 실제로 쓰는 도구 안에서 맥락 기반 답변을 제공한다. 사용자·부서 정보를 이해해 필요한 순간에 필요한 콘텐츠를 노출한다.
Guidde Discover
에이전틱(Agentic) 축의 핵심. Waze가 운전 데이터를 바탕으로 길을 그리듯, 직원들의 실제 사용 행태를 학습해 소프트웨어 ‘경로’를 자동으로 지도화한다. UI가 바뀌면 콘텐츠도 자동으로 업데이트된다.
사람과 에이전트를 함께 훈련
Guidde는 “사람과 에이전트를 동시에 훈련하는 유일한 플랫폼”을 지향한다. 현업에는 업무 흐름 속 ‘한 입 크기’ 비디오 튜토리얼을 제공해 도입 격차를 줄이고, 같은 자료가 곧바로 에이전트의 시각적 모방 학습 데이터가 된다. 제미니나 GPT-4 같은 범용 모델이 내부 ‘바닐라 워크플로’에서 길을 잃지 않도록 시작점·메타데이터·버튼의 x,y 좌표까지 제공해 막힘 없이 실행하도록 돕는다.
멀티모달 인프라와 모델 플릿
단일 모델에 의존하지 않고 상호 평가하는 모델 플릿을 운용한다. Google Gemini는 PDF·PPT 등 시각 분석에, Anthropic Claude는 스토리·내러티브 작성에 주로 투입한다. 사용자의 편집 행위는 피드백 루프로 반영돼 이후 캡처·생성 품질이 높아진다. 그 결과 Loom(캡처)·Adobe Premiere(편집)·11Labs(TTS)·Synthesia(아바타) 등 분절된 도구를 하나의 AI 네이티브 스택으로 대체한다.
비디오 퍼스트의 탄생 배경
공동창업자 요아브 에이나브와 단 사하는 Qwilt에서 넷플릭스·디즈니+ 트래픽을 다룬 경험을 업무 현장으로 옮겼다. 팬데믹 시기, 짧은 설명 영상이 전환율을 30% 끌어올리지만 제작 마찰이 너무 크다는 문제를 포착했고, 스크립트·내레이션·편집으로 분절된 워크플로를 자동화해 ‘제작 병목’을 제거했다. 이는 시각적 모방 학습에 최적화된 데이터 파이프라인을 형성했다.
라이선스·효과·지표
가격: Free(25개 영상) / Pro(크리에이터당 월 18달러) / Business(월 39달러) / Enterprise(SSO·다국어·Magic Redaction 등 커스텀). 효과: 영상 제작 시간 41% 단축, 인바운드 지원 티켓 34% 감소. Emerson 등 고객은 가이드 제작이 40~60% 빨라졌고, 지원팀은 적절한 콘텐츠만 갖추면 티켓의 80%를 에이전트로 오프로딩할 수 있었다.
고객·투자자 반응과 확장
Guidde는 이미 4,500개 엔터프라이즈 고객을 확보했다. DocNetwork는 고객 문의에 ‘빠르고 개인화된’ 영상 응답을, 한 고객지원 책임자는 브랜드 세팅 후 ‘초고속 제작 경험’을 강조했다. 리드 투자사 PSG의 로넨 니르는 “AI 도입의 최대 걸림돌인 지식 인프라를 해결한다”고 평가했다.
왜 지금인가: 2026의 에이전틱 비디오 인텔리전스
텍스트 중심 LLM에서 에이전틱 비디오 인텔리전스로의 전환이 가속화되는 가운데, 현업의 실제 수행을 담은 영상이 에이전트 훈련의 ‘그라운드 트루스’로 부상하고 있다. 시각적 모방 학습은 정적 문서가 놓치는 사용 맥락·공간 단서를 포착해, 연구실이 아닌 실제 운영 환경에서 통하는 자동화를 가능케 한다. “사람이 루프에 있는 상태에서 시작해, 점차 완전 자율로 간다”는 비전처럼, 지도는 더 이상 문서가 아니라 살아 있는 비디오 지능 레이어가 된다.
실제 적용 예시
고객지원 티켓 자동화 체크리스트
에이전트가 CRM·헬프데스크 UI를 사람처럼 탐색할 수 있도록, 로그인→검색→분류→매크로 실행의 화면 흐름을 Video Ground Truth로 수집한다. 민감 식별자는 Magic Redaction으로 가리고, 실패 케이스의 편집 피드백을 반영해 시각적 모방 학습 정확도를 높인다.
ERP 인보이스 처리 단계별 안내
재무팀 전문가의 실제 처리 과정을 캡처해 버튼 좌표·폼 검증 규칙·대기 시간 보정 등을 포함한 디지털 월드 모델을 만든다. UI 변경 시 Discover가 라우트를 갱신해 문서 없이도 에이전트와 사용자가 최신 흐름으로 작업한다.