2025년 10월 29일 09:00

구글 클라우드, 기업 AI 학습용 'Vertex AI Training'과 관리형 Slurm 공개

기사 요약

구글 클라우드는 기업이 자체 모델을 학습할 수 있도록 관리형 Slurm, 데이터 사이언스 도구, 대규모 학습용 칩 접근을 제공하는 'Vertex AI Training'을 발표했다.
이 서비스는 RAG나 단순 파인튜닝이 아닌 수백~수천 개 칩을 쓰는 장기 학습에 초점을 맞추며, 자동 체크포인팅과 장애 복구 등 관리 기능을 제공한다.
CoreWeave, Lambda Labs, AWS, Azure와 경쟁하며, AI Singapore와 Salesforce 등 초기 고객을 확보하고 가격은 사용 연산량에 따라 책정된다.

기업 규모 모델 학습을 겨냥한 Vertex AI Training 소개

구글 클라우드가 발표한 Vertex AI Training은 기업이 자체 모델을 학습할 때 관리형 Slurm 환경, 데이터 사이언스 툴링, 대규모 모델 학습에 적합한 다양한 칩에 대한 접근을 제공한다. 고객은 자체 모델을 반입하거나 구글 클라우드가 호스팅하는 오픈소스 모델을 커스터마이즈할 수 있으며, 이를 통해 CoreWeave와 Lambda Labs, 그리고 AWS·Microsoft Azure 등과 정면으로 경쟁한다.

관리형 Slurm로 대규모 학습 오케스트레이션

이 서비스는 단순 파인튜닝이나 LoRA가 아니라 수백~수천 개 칩을 사용하는 장기 학습 잡에 최적화됐다. 작업 스케줄링과 자동 복구, 자동 체크포인팅을 통해 하드웨어 오류로 인한 중단 시에도 신속히 재개되어 다운타임을 최소화한다. Vertex AI Training 환경에서는 이러한 관리 기능을 통해 처리량과 학습 효율을 높일 수 있다.

GPU 접근성, 비용, 그리고 클라우드의 가치

대형 모델 학습은 GPU 수급 경쟁으로 어렵고 비용도 크다. 하이퍼스케일러는 대규모 데이터센터와 고성능 칩 인프라를 내세워 엔터프라이즈 가치를 제공하고, CoreWeave는 Nvidia H100 온디맨드로 유연한 컴퓨팅을 지원한다. 그러나 Vertex AI Training은 단순 베어 컴퓨트 임대가 아니라 모니터링과 학습 관리 서비스를 함께 제공해 운영 부담을 줄이며, 요금은 필요한 연산량에 따라 결정된다.

활용 대상과 초기 고객 사례

주요 대상은 대규모 생성형 AI 모델을 구축·개조해 제품을 만들거나 핵심 업무를 강화하려는 조직이다. AI 스타트업과 기술 기업, 특정 지역·문화·언어를 위한 주권형 조직, 대기업 내부 프로세스 통합 수요가 포함된다. 초기 고객으로는 싱가포르 연구기관·스타트업 컨소시엄 AI Singapore(270억 매개변수 SEA-LION v4 구축)와 세일즈포스 AI 리서치 팀이 소개됐다. 금융 특화 소형 언어모델을 자체 학습하는 FICO처럼 GPU 구매 비용이 큰 사례가 있는 반면, Vertex AI Training은 더 넓은 칩 선택지와 구글의 Gemini 학습에서 축적한 전문성을 차별점으로 내세운다. 또한 Arcee.ai의 고객 맞춤 모델 제공, 어도비 Firefly 재학습 서비스 등 맞춤형 모델 수요가 증가 중이다.

도입 전 고려사항과 경쟁 구도

모든 기업에 정답은 아니다. 스크래치부터 LLM을 만드는 일은 소규모 조직엔 비현실적일 수 있고, 일부 용도는 기존 LLM 파인튜닝이 더 적합하다. 그럼에도 이 서비스는 GPU 접근성이 관건인 조직이 니치 모델을 구축하거나 기존 모델을 완전히 맞춤화하는 데 도움을 줄 수 있으며, 구글은 이를 통해 전문 GPU 제공업체와 타 클라우드에서 고객을 전환시키려 한다.

최신기사

Ease Health, a16z서 4,100만 달러 유치…AI 네이티브 행동건강 운영체제 재정의

거래소 애그리게이터는 어떻게 암호화폐 인프라가 되었나: 사례와 시사점

알리바바 Qwen3.5-9B, OpenAI 120B 능가…오픈소스로 노트북에서도 구동

인튜잇, 40년 소상공인 데이터로 SaaSpocalypse 정면돌파

딥페이크보다 위험한 건 ‘속삭임’? 웨어러블 AI의 일상적 조작

AI의 '정렬 위장' 확산: 자율 에이전트 시대 보안 과제

과열된 AI와의 바이브 코딩: 구글 AI 스튜디오를 팀처럼 다루며 얻은 교훈

앤스로픽과 펜타곤 충돌: 기업에 필요한 상호운용성 전략

마이크로소프트 OPCD: 장문 시스템 프롬프트 제거해도 모델 성능 유지

기업의 MCP 도입 속도, 보안 통제보다 훨씬 빠르다