leangnews
Command Palette
Search for a command to run...
2025년 11월 12일 09:00
Baseten, ‘Baseten Training’ 공개…가중치 소유 보장하며 학습 시장 본격 공략
기사 요약
- Baseten이 오픈소스 모델 미세조정을 위한 인프라 ‘Baseten Training’을 일반 출시하고, 고객의 학습 코드·데이터·가중치 소유를 전면 보장했다.
- 멀티클라우드 GPU 오케스트레이션, 서브-분 단위 스케줄링, 자동 체크포인트 등으로 하이퍼스케일러의 장기 약정과 락인을 우회한다.
- 초기 고객은 비용 84% 절감과 지연 50% 개선을 보고했으며, 학습·추론 통합 최적화로 지속 성능 개선을 목표로 한다.
오픈소스 미세조정 인프라로의 피벗: 고객이 가중치를 소유하는 학습 플랫폼
기업용 AI 도입의 변곡점에서 Baseten은 인프라 주력의 정체성을 유지한 채 학습 영역을 본격 확장했다. 새 플랫폼은 GPU 클러스터 운영, 멀티 노드 오케스트레이션, 클라우드 용량 계획의 부담을 덜어주면서도, 고객이 학습 코드·데이터·모델 가중치를 온전히 소유하고 반출할 수 있도록 설계됐다. “학습은 추론을 위한 수단”이라는 전략 아래, Baseten은 락인 대신 성능으로 잔존 가치를 증명하겠다는 입장이다.
실패에서 얻은 교훈: Blueprints의 종말과 재정의
2년 반 전 선보였던 Blueprints는 추상화 수준이 지나치게 높아 사용자 선택(베이스 모델, 데이터 품질, 하이퍼파라미터)의 책임과 직결되는 성능 저하를 야기했고, 결국 Baseten을 인프라가 아닌 컨설팅으로 끌어당겼다. 이 실패를 계기로 회사는 추상화를 낮추고, 운영 신뢰성과 관측성, 추론 스택과의 긴밀한 통합에 초점을 맞췄다.
Baseten Training의 핵심 포지셔닝
Baseten Training은 인프라 레이어에서 동작하는 저수준 도구이되, 학습 파이프라인의 신뢰성·관측성·배포 연계를 견고하게 다진다. 고객은 원하는 프레임워크와 코드로 학습을 수행하고, 가중치를 자유롭게 내려받아 다른 환경으로 이동할 수 있다.
기술 차별점: 멀티클라우드 오케스트레이션과 운영 도구
Baseten Training의 멀티클라우드 GPU 오케스트레이션
NVIDIA H100/B200 기반 멀티 노드 학습, 자동 체크포인트로 노드 장애에도 진행 상황을 보호한다. 서브-분 단위 잡 스케줄링과 자체 Multi-Cloud Management(MCM)로 여러 클라우드·리전에 걸쳐 GPU를 탄력적으로 할당·회수해 비용 효율을 극대화한다. 하이퍼스케일러의 다년 약정 없이 “필요할 때 3~4개의 B200 노드만 쓰고 반납”하는 사용성을 목표로 한다. 최근 AWS 장애 시에도 트래픽을 타 클라우드로 자동 라우팅해 추론을 유지한 경험을 학습 워크로드로 확장했다.
관측성·운영 인터페이스
멀티 노드 작업에 대한 GPU별 메트릭, 세밀한 체크포인트 추적, 인프라 이벤트를 표면화하는 새 UI를 제공한다. 운영자는 병목 위치와 실패 원인을 빠르게 파악하고, 비용·성능 균형을 즉시 조정할 수 있다.
ML Cookbook과 모델 레시피
Gemma, GPT OSS, Qwen 등 인기 모델용 오픈소스 학습 레시피(ML Cookbook)를 제공해 “학습 성공”에 이르는 시행착오를 줄인다.
초기 고객 사례: 비용 84% 절감, 지연 50% 개선
Oxen AI·AlliumAI: 자동화된 학습 오케스트레이션
Oxen AI는 Baseten CLI로 학습 잡을 프로그래매틱하게 실행·종료하며, GPU 할당/회수를 자동화해 자사 인터페이스 뒤로 Baseten을 완전히 숨겼다. 리테일 데이터 정제에 특화한 AlliumAI는 이 통합으로 추론 비용을 46,800달러에서 7,530달러로 낮춰 84% 절감했다. “CUDA, GPU 선택, 학습 후 서버 종료 같은 인프라 고민이 사라졌다”는 평가다.
Parsed: 도메인 특화 성능과 규제 준수
Parsed는 이전 공급자의 버그로 미세조정 모델 성능 저하와 가중치 다운로드·체크포인트의 불편을 겪었다. Baseten 전환 후 전사적 녹취/전사(use case)에서 엔드투엔드 지연이 50% 감소했고, 48시간 내 EU 지역 HIPAA 준수 테스트 배포를 가동, 500건 이상의 학습 잡을 실행했다. 수정된 vLLM과 추측 디코딩(speculative decoding)으로 커스텀 모델의 지연을 절반으로 단축했다.
학습과 추론의 상호작용: 통합 최적화의 레버리지
Baseten Training과 추론 최적화의 선순환
Baseten은 GPT OSS 120B에서 EAGLE-3 기반 추측 디코딩을 사용해 초당 650+ 토큰(출시 대비 60% 향상)을 달성했다. 이는 대형 타깃 모델 곁에서 동작하는 소형 ‘드래프트 모델’을 지속 학습해야 가능한 기법으로, 내부 모델 성능팀이 Baseten Training을 상시 활용해 EAGLE 헤드를 훈련한다. 학습-추론 결합이 성능 가속의 핵심이라는 회사의 논리를 뒷받침한다.
오픈소스 트렌드와 제품 로드맵
Model APIs에서 Baseten Training, 그리고 전용 배포로
Baseten은 DeepSeek V3·R1을 가장 먼저 제공했고 Llama 4, Qwen 3 등도 프로덕션급 성능·신뢰성으로 제공한다. 기업은 Model APIs로 시작해 커스터마이징 필요를 깨닫고 Baseten Training에서 미세조정, 이후 전용 인프라(Dedicated Deployments)로 배포하는 퍼널을 밟는다. 강화학습(RL)·지도 미세조정(SFT) 등 최적 기법은 여전히 유동적이라, 현장 밀착형 FDE(Forward Deployed Engineering)로 패턴을 추출해 과도한 ‘울타리형’ 추상화를 피하는 것이 방침이다. 이미지·오디오·비디오 미세조정 및 프리필-디코드 분리(prefill-decode disaggregation) 같은 고급 기법 통합이 로드맵에 올라 있다.
경쟁 구도와 차별화: 성능·경험·멀티클라우드
하이퍼스케일러 대비 Baseten Training의 가치
AWS·Google Cloud·Azure는 GPU 컴퓨트를, Lambda Labs·CoreWeave·Together AI는 가격·성능·간편성을, Hugging Face·Replicate·Modal은 수직 통합 스택을 내세운다. Baseten은 MCM 기반 용량 관리, 추론 사업에서 축적한 심층 성능 최적화, 실험이 아닌 운영을 겨냥한 개발자 경험을 3대 축으로 차별화한다. 1억5천만 달러 시리즈 D와 21억5천만 달러 가치평가를 바탕으로 Descript(전사), Decagon(고객지원), Sourcegraph(코딩 어시스턴트) 등 맞춤 모델이 핵심인 고객군을 확대 중이다.
결론: 가중치 소유와 추론 중심 철학
Baseten Training이 지향하는 ‘복잡함의 소거’
Baseten은 “학습은 추론을 위한 수단”이라는 일관된 원칙 아래, 락인 없는 가중치 소유권, 멀티클라우드 탄력성, 관측성 강화로 ‘금요일에 SSH로 접속해 월요일까지 기도’하던 고통을 없애려 한다. 컨설팅을 지양하면서도 필요한 추상화만 제공하는 정확한 균형을 잡는 것이 향후 관건이다. 기술적 탁월함이 계약적 구속보다 강한 잔존력을 만든다는 베팅이 현실에서 얼마나 설득력을 갖는지, 이제 성능과 비용으로 증명할 차례다.