leangnews
Command Palette
Search for a command to run...
2025년 11월 08일 09:00
구글, 7세대 TPU ‘아이언우드’ 공개… 성능 4배·앤스로픽 초대형 계약
기사 요약
- 구글 클라우드가 7세대 TPU ‘아이언우드’와 Arm 기반 ‘액시온’을 공개하며 추론 중심의 구글 AI 인프라를 강화했다.
- 앤스로픽은 최대 100만 개 TPU 접근에 합의해 수백억 달러 규모의 초대형 계약을 예고했다.
- 아이언우드는 9,216칩 팟·1.77PB HBM·9.6Tbps ICI와 OCS로 고가용성을 달성하고, 소프트웨어 스택과 400V DC 전력/액체냉각으로 대규모 배치를 뒷받침한다.
아이언우드로 완성되는 구글 AI 인프라
구글 클라우드는 자사 최고 성능의 인공지능 인프라를 표방하며 7세대 TPU ‘아이언우드(Ironwood)’와 Arm 기반 ‘액시온(Axion)’ 옵션을 공개했다. 이는 업계가 대규모 모델 학습에서 ‘서비스(추론) 제공’으로 무게중심을 옮기는 흐름에 맞춘 것으로, 구글 AI 인프라를 통해 수십억 건의 요청을 낮은 지연으로 처리하려는 전략이다.
왜 ‘추론의 시대’인가: 서비스 중심 전환
학습은 지연에 비교적 관대하지만, 추론은 일관된 저지연·고처리량·높은 안정성이 필수다. 30초 후 응답하는 챗봇이나 자주 타임아웃되는 코딩 도우미는 모델 성능과 무관하게 쓸 수 없다. 프롬프트 응답을 넘어 자율적으로 행동하는 ‘에이전틱’ 워크플로는 특화 가속기와 범용 컴퓨팅의 정밀한 공조를 요구하며, 구글 AI 인프라 설계 전반을 재정의하고 있다.
아이언우드 아키텍처 핵심: 9,216칩이 하나의 슈퍼컴처럼
아이언우드는 전 세대 대비 학습·추론 모두에서 4배 이상 성능을 내며, 단순 트랜지스터 증대가 아닌 시스템 수준 공동 설계를 통해 도약을 이뤘다. 단일 ‘아이언우드 팟’은 9.6Tbps로 동작하는 구글 고유의 칩 간 인터커넥트(ICI)로 최대 9,216개 TPU를 연결하고, 1.77PB의 HBM(고대역폭 메모리)을 공유한다. 구글은 기술 문서에서 “아이언우드 팟이 차점 경쟁사 대비 FP8 엑사FLOPS 기준 118배의 성능을 제공한다”고 밝혔다. 또한 광 회로 스위칭(OCS)을 적용해 부품 장애나 유지보수 시에도 밀리초 단위로 우회 경로를 구성, 사용자 영향 없이 워크로드를 지속한다. 액체냉각 기반 시스템은 2020년 이후 약 99.999% 가용성을 유지했다고 회사는 전했다.
앤스로픽 메가딜: 맞춤형 실리콘 전략의 검증
클로드(Claude) 모델로 알려진 앤스로픽은 최대 100만 개 TPU 접근 계획을 공개했다. 전력·네트워킹·냉각을 포함한 인프라 규모를 감안하면 수년간 수백억 달러에 달할 초대형 계약으로, 2026년에는 1GW를 훌쩍 넘는 용량에 접근할 전망이다. 앤스로픽은 TPUs의 가격 대비 성능과 효율, 그리고 기존 TPU 기반 학습·서빙 경험을 선택 이유로 들었다. 이는 구글이 엔비디아 GPU 의존도를 낮추고 자체 실리콘과 소프트웨어를 수직 통합하려는 구글 AI 인프라 전략에 힘을 실어준다.
액시온(Arm) CPU: AI를 떠받치는 범용 컴퓨팅
구글은 특화 가속기와 더불어 범용 워크로드를 위한 액시온 CPU 옵션도 확장했다. 프리뷰에 들어간 N4A 인스턴스는 마이크로서비스, 컨테이너, 오픈소스 DB, 배치/분석, 개발/실험, 데이터 준비, 웹 서빙 등 AI 애플리케이션을 떠받치는 작업에서 동급 x86 VM 대비 최대 2배의 가격 대비 성능을 제공한다고 밝혔다. 첫 Arm 베어메탈인 C4A metal도 공개되어 안드로이드 개발, 자동차, 라이선스 제약 워크로드에 물리 서버를 제공한다. 초기 고객사로는 비메오가 핵심 트랜스코딩에서 30% 성능 개선을, 줌인포가 자바 기반 데이터 파이프라인에서 60% 가격 대비 성능 향상을 관측했다.
AI 하이퍼컴퓨터와 소프트웨어 스택
하드웨어가 곧 생산성으로 이어지려면 개발자가 쉽게 성능을 끌어낼 수 있어야 한다. 구글은 컴퓨팅·네트워킹·스토리지·소프트웨어를 통합한 ‘AI 하이퍼컴퓨터’를 통해 시스템 수준 효율을 높인다고 강조했다. IDC(2025년 10월) 스냅샷에 따르면 고객사는 평균 3년 ROI 353%, IT 비용 28% 절감, IT 팀 효율 55% 향상을 달성했다. GKE는 TPU 클러스터에 유지보수·토폴로지 인지 스케줄링을 제공하고, 오픈소스 MaxText는 SFT와 GRPO를 지원한다. 인퍼런스 게이트웨이는 프리픽스 캐시 인지 라우팅 등으로 최초 토큰 지연을 최대 96% 줄이고 서빙 비용을 최대 30% 절감한다. KV 캐시 적중률, GPU/TPU 활용도, 대기열 길이 등을 모니터링해 최적 복제본으로 라우팅하며, 대화형 AI에서 공통 프리픽스를 공유하는 요청을 같은 서버로 모아 중복 계산을 크게 줄인다. 이러한 소프트웨어 통합은 구글 AI 인프라의 체감 성능을 끌어올리는 핵심 축이다.
전력·냉각의 현실: 랙당 1MW 시대
구글은 최근 OCP EMEA에서 ±400V 직류(DC) 전력 공급으로 랙당 최대 1MW를 지원하는 설계를 공개했다. “2030년 전 ML은 랙당 500kW를 넘길 것”이라는 전망 아래, 메타·마이크로소프트와 고전압 DC 분배 표준화도 추진 중이다. 400V DC 채택은 전기차 공급망을 활용해 규모의 경제와 제조 효율, 품질을 확보하려는 계산이다. 냉각 측면에선 7년간 2,000개 이상의 TPU 팟에 액체냉각을 기가와트 규모로 배치해 약 99.999% 가용성을 달성했으며, 물은 동일 온도 변화에서 공기 대비 부피당 약 4,000배의 열을 운반한다. 이 하드웨어 기반 설비가 구글 AI 인프라의 대규모 상용화를 뒷받침한다.
맞춤형 실리콘 vs 엔비디아: 구글의 장기 베팅
엔비디아가 AI 가속기 시장 점유율 80~95%로 군림하는 가운데, AWS(Graviton/Inferentia/Trainium), 마이크로소프트(Cobalt, 자체 AI 가속기 추진) 등 클라우드 업체는 비용 구조와 차별화를 위해 맞춤형 실리콘에 투자하고 있다. 다만 칩 설계에는 막대한 선투자와 생태계 과제가 따른다. CUDA로 15년 이상 축적된 개발도구 격차, 빠른 모델 진화에 따른 최적화 불일치 위험도 크다. 그럼에도 구글은 “연구·소프트웨어·하드웨어를 한 지붕 아래 통합”해 범용 부품으로는 불가능한 최적화를 이룬다고 주장한다. 1세대 TPU가 트랜스포머(2017) 시대를 연 전례를 들며, 아이언우드와 구글 AI 인프라의 수직 통합 전략이 다시 한 번 경제성과 성능 우위를 만들 수 있음을 시사한다. 라이트릭스 등 초기 고객은 이미지·동영상 생성의 정밀도·충실도 향상에 기대를 표했다. 업계의 초대형 설비 투자 지속 가능성, 맞춤형 실리콘의 경제성, 모델 아키텍처의 향방은 여전히 열려 있지만, 수요가 분기점을 맞는 지금 구글의 베팅은 현실 세계 서비스에서 가치를 입증해 가는 중이다.