leangnews
Command Palette
Search for a command to run...
2025년 12월 11일 10:04
구글 TPUv7, 대규모 AI 훈련의 비용·성능·아키텍처를 재편하다
기사 요약
- 구글 TPUv7이 Gemini 3·Claude 4.5 Opus 학습에 쓰이며 엔비디아 GPU 중심의 ‘CUDA 해자’를 흔들고, 대규모 AI 훈련의 경제학과 설계를 바꾸고 있습니다.
- 구글은 클라우드 임대에 묶였던 TPU를 하드웨어로도 직접 공급하며, Anthropic에 최대 100만 개를 제공하는 초대형 거래로 OPEX·CAPEX 선택지를 열었습니다.
- TPU는 대형 텐서 워크로드에서 비용·효율 우위를 보이지만 GPU의 범용성·생태계는 여전히 강력해, PyTorch 네이티브 지원 확대로 전환 비용을 낮추며 하이브리드 구도가 부상합니다.
GPU 중심 질서에 도전하는 구글 TPUv7의 부상
10여 년간 엔비디아 GPU가 현대 AI의 거의 모든 도약을 뒷받침해 왔지만, 이제 구글의 텐서 처리 장치인 TPUv7(Ironwood 기반)이 Gemini 3와 Claude 4.5 Opus 같은 프런티어 모델 학습을 주도하며 판도를 흔들고 있습니다. ‘CUDA(Compute Unified Device Architecture) 해자’로 불린 엔비디아 소프트웨어 스택 의존성은 전환 비용을 높여왔지만, TPUs는 애초부터 머신러닝 전용 실리콘으로 설계돼 대규모 행렬 연산에 특화됐습니다. 특히 칩 수준의 고속 인터커넥트 통합으로 TPU 팟을 단일 슈퍼컴퓨터처럼 확장해, 전통적 GPU 클러스터가 안고 온 비용·지연 패널티를 줄입니다. WEKA의 Val Bercovici는 “TPU는 단순한 칩이 아니라 완성된 시스템으로 설계됐다”고 설명합니다.
상업 전략 전환: 클라우드 종속에서 하드웨어 직판으로
Ironwood 기반 구글 TPU 직판과 임대 병행
그동안 구글은 Google Cloud를 통한 임대 방식으로만 TPU 접근을 제공했지만, 최근에는 하드웨어를 서비스에서 분리해 외부 고객에게 직접 공급하기 시작했습니다. 고객은 클라우드 임대(OPEX)와 장비 구매(CAPEX) 중 선택해 ‘클라우드 렌트’ 프리미엄을 피해갈 수 있습니다. 전략 변화의 핵심은 Anthropic과의 초대형 계약으로, 최대 100만 개의 칩(기가와트급 컴퓨트)을 제공하며 약 40만 개는 Broadcom을 통해 직매각, 60만 개는 Google Cloud로 임대됩니다. 이 거래는 구글에 수십억 달러의 매출을 더하고, OpenAI의 핵심 경쟁자를 구글 생태계에 고착시킵니다.
CUDA 해자 약화: 생태계 격차 해소
PyTorch 네이티브 지원으로 TPU 진입장벽 낮추기
과거 TPU는 구글의 JAX에 최적화되어 PyTorch 중심의 주류 개발 흐름과 어긋나 있었습니다. TPUv7은 이 격차를 직접 해소합니다. 네이티브 PyTorch 통합을 통해 eager execution, 분산 API, torch.compile, 커스텀 TPU 커널을 지원하며, vLLM·SGLang 같은 인기 오픈소스 추론 프레임워크도 최적화해 코드 전면 재작성 없이 하드웨어 전환을 돕습니다. 목표는 “PyTorch가 엔비디아 GPU만큼 TPU에서 자연스럽게 돌아가게 하는 것”입니다.
TPU vs GPU: 비용·성능·확장성의 현실
TCO 우위와 에너지 효율, 그리고 시장 파급효과
SemiAnalysis 분석에 따르면 구글 내부 기준 Ironwood 서버의 총소유비용(TCO)은 동급 엔비디아 GB200 Blackwell 서버 대비 약 44% 낮습니다. 구글·Broadcom의 마진을 반영해도 외부 고객(Anthropic 등)은 엔비디아 대비 약 30% 비용을 절감합니다. Bercovici는 대규모에서는 TPUs로 30~50%의 TCO 절감이 가능해 수십억 달러 절약으로 이어질 수 있다고 말합니다. 대안의 존재만으로도 OpenAI는 자사 엔비디아 하드웨어 가격을 약 30% 인하받았고, OpenAI는 Google Cloud로 TPU를 추가 도입했으며 Meta 역시 데이터센터용 Google TPU 도입을 논의 중인 것으로 전해집니다.
전용성의 장점과 범용성의 트레이드오프
TPUs는 대규모 딥러닝(특히 텐서 연산)에서 탁월하지만, 비(非)AI 작업을 포함해 다양한 알고리즘을 곧바로 실행하는 범용성은 GPU가 앞섭니다. 새로운 AI 기법이 등장하면 GPU는 즉시 실행할 가능성이 큽니다. 또한 CUDA 기반 파이프라인·커스텀 GPU 커널 등 기존 자산을 많이 가진 팀은 전환 비용·기간이 커질 수 있습니다. Bercovici는 출시 속도가 핵심인 경우 표준 인프라·최대 개발자 생태계를 가진 GPU를 권고하며, TPU 활용에는 커스텀 커널과 컴파일러 최적화가 가능한 희소 인재가 필요하다는 점을 지적합니다.
아키텍처적 의미와 향후 구도
시스템 수준 설계 강화와 하이브리드의 부상
TPUv7은 칩 내부에 고속 인터커넥트를 촘촘히 통합해 네트워킹 비용과 지연을 줄이고, TPU 팟을 단일 슈퍼컴퓨터처럼 확장하는 시스템 지향 설계를 제시합니다. 이러한 특화는 대형 텐서 중심 워크로드에서 빛나는 한편, 광범위한 유연성·하이브리드 클라우드·HPC 다목적성에서는 GPU가 유리할 수 있습니다. 구글은 “대다수 고객이 GPU와 TPU를 함께 쓴다”며 최신 엔비디아 GPU와 7세대 커스텀 TPU를 폭넓게 제공, 워크로드별 최적 조합을 선택할 수 있게 합니다. 결과적으로 최상위 성능을 노리는 기업에는 TPUv7과 GPU를 통합한 하이브리드 아키텍처가 유력한 해답으로 부상하고 있습니다.