leangnews

2025년 10월 17일 02:00

구글, AI 영상 생성 모델 ‘Veo 3.1’ 공개: 기능·가격·기업 활용

구글, AI 영상 생성 모델 ‘Veo 3.1’ 공개: 기능·가격·기업 활용


기사 요약

  • 구글이 AI 영상 생성 모델 Veo 3.1을 공개해 스토리·오디오 제어와 현실감을 강화했다.
  • Flow·Gemini API·Vertex AI 전반에서 배포되며, 가격은 이전 세대와 동일하고 기업용 워크플로에 맞춘 제어·편집 기능을 제공한다.
  • 초반 평가는 엇갈리지만 툴링은 호평받았고, 안전성·워터마크·정책을 갖추며 엔터프라이즈 활용성이 커지고 있다.

개요

며칠간의 유출과 루머 끝에 구글이 최신 AI 영상 생성 모델 Veo 3.1을 공개했다. 이번 업데이트는 내러티브(스토리) 제어, 오디오 통합, 현실감을 대폭 강화했으며, 취미·크리에이터를 위한 Flow는 물론 기업·개발팀을 겨냥한 확장성과 커스터마이즈 가능성을 넓혔다. 품질과 물리 정확도는 높아지고 가격은 동일하며, 제어·편집 기능은 더 견고해졌다. 초기 테스트에서는 각 생성 결과가 즉각적인 만족감을 줬지만, 기본 톤이 경쟁작 OpenAI Sora 2보다 더 영화적이고 매끈한 대신 다소 ‘인공적’으로 느껴질 수 있다는 평가도 있었다.

스토리와 오디오 제어 강화

전작 Veo 3 기반에서 대화, 앰비언트 사운드, 효과음 지원을 확대했다. Flow의 Frames to Video, Ingredients to Video, Extend 등 핵심 기능 전반에 네이티브 오디오 생성이 적용돼, 정지 이미지를 영상으로 바꾸고, 여러 이미지의 오브젝트·캐릭터를 한 영상에 결합하며, 기본 8초를 넘어 최종 프레임에서 이어 붙일 경우 30초 이상 또는 1분대까지 확장할 수 있다. 이전에는 이 과정 후 오디오를 수동으로 덧입혀야 했지만, 이제는 톤·감정·스토리텔링을 원스톱으로 컨트롤해 별도 오디오 파이프라인을 줄일 수 있다. 구글은 사용자 피드백을 반영해 Flow 내에서 장면을 처음부터 다시 만들지 않고도 세밀한 수정이 가능하도록 하는 데 초점을 맞췄다고 밝혔다.

입력·편집과 장면 확장

텍스트 프롬프트, 이미지, 동영상 클립 등 다양한 입력을 지원하며, 기준 이미지 최대 3장으로 최종 스타일·외형을 가이드할 수 있다. 시작·마지막 프레임 보간으로 고정된 양 끝 사이를 매끈하게 연결하고, 장면 확장으로 현재 길이를 넘어 동작·모션을 이어간다. 브랜드 일관성과 크리에이티브 브리프 준수를 정밀하게 맞출 수 있도록 Insert(객체 추가)와 Remove(요소·캐릭터 제거)도 도입되지만, 일부는 아직 Gemini API에서 즉시 제공되지는 않는다. 또한 Veo 3.1을 통해 이런 세밀 제어가 한층 사용성 있게 다듬어졌다.

배포 경로와 통합

이번 모델은 구글의 기존 서비스 전반에서 접근할 수 있다. 팀 구성과 워크플로에 맞춰 GUI 중심 또는 프로그래매틱 환경을 선택하면 된다.

Flow: 제작자용 인터페이스

AI 보조 영화 제작 인터페이스인 Flow에서 주요 기능을 바로 활용할 수 있다.

Gemini API: 개발자용

애플리케이션에 영상 생성 기능을 임베드하려는 개발자를 위한 경로로, 현재 유료 요금제에서 프리뷰로 제공된다.

Vertex AI: 엔터프라이즈 통합

엔터프라이즈 환경에서 장면 확장 등 핵심 기능 지원이 곧 추가될 예정이다.

가격과 접근성

요금

스탠더드: 영상 1초당 $0.40, 패스트: 1초당 $0.15. 이전 세대와 동일한 체계로, 무료 티어는 없다.

과금 방식

영상이 성공적으로 생성된 경우에만 과금하며, 예산 예측이 필요한 기업팀에 유리하다.

기술 사양과 출력 제어

출력 해상도는 720p 또는 1080p, 프레임 레이트는 24fps다. 텍스트·이미지 기반 생성 길이는 4·6·8초 옵션을 제공하고, Extend 기능으로 최대 148초(2분 30초 이상)까지 늘릴 수 있다. 제품 이미지나 레퍼런스를 업로드하면 영상 전반에서 외형과 스타일을 유지하도록 생성해 소매·광고·가상 콘텐츠 제작 파이프라인을 간소화한다.

초기 반응

크리에이터와 개발자 커뮤니티의 평가는 엇갈린다. Otherside AI/Hyperwrite의 창업자 Matt Shumer는 Sora 2 대비 품질과 비용에서 실망감을 표했지만, 레퍼런스·장면 확장 등 툴링은 강점으로 꼽았다. 3D 아티스트 Travis Davids는 효과음·대사 등 오디오 품질 개선을 인정하면서도, 커스텀 보이스 부재, 음성 선택 불가, 8초 생성 제한, 카메라 앵글 변화 시 캐릭터 일관성 유지의 난점, 유료 티어(예: Flow Pro)에서 1080p 미지원 의구심 등 한계를 지적했다. 반면 일부 사용자는 “놀랍다”는 반응과 함께도 여전히 최신 OpenAI 모델을 선호한다고 밝혔다.

도입 규모와 활용 시나리오

Flow 출시 5개월 만에 누적 2억 7,500만 개 이상의 영상이 생성됐다. 개인뿐 아니라 개발자·기업의 자동화 실험이 빠르게 늘고 있음을 시사한다. Google Labs 제품 관리 디렉터 Thomas Iljic는 장면 구성, 샷 간 연속성, 오디오 조율 등 사람이 영상을 기획·촬영하는 방식에 더 가까워졌다고 설명했다.

안전성과 책임 있는 사용

생성된 영상에는 구글의 SynthID 워터마크가 삽입돼 AI 생성물임을 식별할 수 있다. API 전반에 안전 필터와 모더레이션이 적용되며, 생성물은 다운로드하지 않으면 2일 후 삭제된다. 출처 검증과 규정 준수가 중요한 조직에 유용하다.

경쟁 구도와 전망

이번 릴리스는 단순 업데이트를 넘어 멀티모달 입력, 스토리텔링 제어, 엔터프라이즈급 툴링을 깊게 통합했다. 크리에이티브 현업은 편집 워크플로와 충실도에서 이점을, 기업은 조합 가능성과 API 지원에서 가치를 얻을 수 있다. 다만 사실감, 보이스 제어, 생성 길이에 대한 기대치는 빠르게 높아지고 있어, Veo 3.1의 향후 입지는 Vertex AI를 통한 접근성 확대와 사용자 페인포인트 해결 속도에 달려 있다.

이 기사 공유하기