leangnews
Command Palette
Search for a command to run...
2025년 11월 25일 16:01
ScaleOps, 자가 호스팅 LLM용 AI 인프라로 GPU 비용 최대 70% 절감
기사 요약
- ScaleOps가 자가 호스팅 LLM·GPU 워크로드용 새 AI 인프라 제품을 공개하고, 초기 기업 고객에서 GPU 비용을 50~70% 절감했다고 밝혔다.
- 플랫폼은 워크로드 인지형 스케일링과 선제·사후 대응으로 트래픽 급증 시 성능 저하 없이 용량을 자동 조정하고, 대형 모델 로드에 따른 콜드 스타트를 최소화한다.
- 코드 수정 없이 쿠버네티스·클라우드·온프레미스·에어갭 환경 전반에 통합되며, 사례 기업은 지연 35% 개선과 연간 140만 달러 절감 등을 보고했다.
ScaleOps AI 인프라 제품 한눈에 보기
ScaleOps는 클라우드 리소스 관리 플랫폼을 확장해 자가 호스팅 LLM과 GPU 기반 AI 애플리케이션을 운영하는 기업을 위한 새로운 솔루션을 선보였다. 회사에 따르면 이 시스템은 이미 엔터프라이즈 프로덕션에서 가동 중이며, 초기 도입사에서 GPU 비용을 50~70%까지 절감했다. 공개 가격은 없으며, 기업 규모와 요구 사항에 따른 맞춤 견적을 제공한다. ScaleOps AI 인프라는 기존 모델 배포 파이프라인이나 애플리케이션 코드를 변경하지 않고도 트래픽 변화에 맞춰 실시간으로 GPU 자원을 할당·확장하도록 설계됐다.
리소스 자동화의 AI 인프라 확장
워크로드 인지형 스케일링과 즉시 응답
플랫폼은 선제적·사후적 메커니즘으로 갑작스러운 트래픽 스파이크를 성능 저하 없이 처리하며, 워크로드 적정화 정책으로 가용 용량을 자동 관리한다. 특히 대형 모델 로드로 인한 GPU 콜드 스타트 지연을 최소화해, 수요 급증 시에도 즉각 응답하도록 돕는다.
배포 파이프라인 변경 없이 실시간 확장
기업은 기존 배포 파이프라인과 애플리케이션 코드를 유지한 채 실시간 스케일링을 적용할 수 있다. 회사 측은 위즈(Wiz), 도큐사인(DocuSign), 루브릭(Rubrik), 쿠파(Coupa), 알카미(Alkami), 밴터(Vantor), 그럽허브(Grubhub), 아일랜드(Island), 츄이(Chewy) 등과 포춘 500 다수 조직의 프로덕션 환경을 운영 중이라고 밝혔다.
기술 통합과 플랫폼 호환성
쿠버네티스·클라우드·온프레미스·에어갭 지원
이 제품은 모든 주요 쿠버네티스 배포판과 퍼블릭 클라우드, 온프레미스 데이터센터, 에어갭 환경에서 동작한다. 배포 시 코드 변경, 인프라 재설계, 매니페스트 수정이 필요 없도록 설계됐으며, ScaleOps AI 인프라는 기존 환경에 곧바로 녹아든다.
기존 도구와 충돌 없는 연동
플랫폼은 기존 GitOps, CI/CD, 모니터링, 배포 도구와 함께 즉시 최적화를 시작할 수 있다. 매니페스트나 배포 로직을 바꾸지 않고, 스케줄러와 오토스케일러, 커스텀 정책을 기존 구성 경계를 존중한 채 실시간 운영 컨텍스트로 보완한다.
성능 가시성과 운영 제어
GPU 사용률·모델 동작·스케일링 판단의 투명성
플랫폼은 파드, 워크로드, 노드, 클러스터 단위까지 GPU 활용도, 모델 동작, 성능 지표, 스케일링 의사결정을 한눈에 제공한다. 기본 워크로드 스케일링 정책이 적용되지만, 엔지니어링 팀은 필요에 따라 정책을 미세 조정할 수 있다. 실무적으로는 DevOps·AIOps가 수작업 튜닝에 들이는 시간을 크게 줄이는 것을 목표로 한다.
비용 절감과 기업 사례
대규모 크리에이티브 소프트웨어 기업
수천 개 GPU를 운영하던 이 기업은 도입 전 평균 20% 수준이던 사용률을 크게 끌어올리고, 미활용 용량을 통합해 GPU 노드 스케일 다운을 달성했다. 그 결과 GPU 총지출을 절반 이상 줄였고, 핵심 워크로드 지연 시간도 35% 감소했다.
글로벌 게임 기업의 동적 LLM 최적화
수백 개 GPU에서 동작하는 동적 LLM 워크로드를 최적화해 사용률을 7배 높이면서도 서비스 수준 성능을 유지했다. 해당 고객은 이 워크로드만으로 연간 140만 달러 절감을 전망했다. 회사는 일반적으로 절감액이 플랫폼 도입·운영 비용을 상회해 투자 대비 회수가 빠르다고 강조했다.
산업 맥락과 회사 관점
클라우드 네이티브 AI 인프라의 복잡성과 과제
자가 호스팅 AI 모델 확산으로 GPU 효율과 대규모 워크로드 운영 복잡성이 기업의 핵심 과제로 떠올랐다. ScaleOps는 클라우드 네이티브 아키텍처가 유연성과 통제를 제공하는 한편, 대규모 GPU 자원 관리를 혼란스럽게 만들어 낭비와 성능 문제, 비용 급증을 초래했다고 진단한다.
연속적·자동화된 최적화의 통합 접근
ScaleOps AI 인프라는 다양한 워크로드를 확장 운영하는 데 필요한 클라우드 리소스 관리 기능을 하나로 묶어, 지속적이고 자동화된 최적화를 제공하는 전사 통합 시스템을 지향한다. 초기 성과와 비용 절감 지표는 자가 호스팅 AI 생태계에서 측정 가능한 효율 개선에 초점을 맞추고 있음을 시사한다.
설치와 시작
헬름 플래그 한 번으로 2분 설치
설치는 단 하나의 헬름 플래그로 약 2분이면 완료되며, 이후 단일 동작으로 최적화를 활성화할 수 있다. ScaleOps AI 인프라는 기존 엔터프라이즈 인프라에 자연스럽게 통합돼 즉시 효과를 내도록 설계됐다.