구글의 새로운 7세대 텐서 처리 장치(TPU)인 아이언우드입니다.
아이언우드는 추론을 위해 설계되었으며 이전 TPU보다 더 강력하고 에너지 효율적입니다.
최대 9,216개의 칩으로 확장 가능하며 42.5 Exaflops의 컴퓨팅 성능을 제공합니다.
이는 대규모 언어 모델 및 혼합 전문가와 같은 “사고 모델”의 계산 요구 사항을 처리하도록 구축되었습니다.
아이언우드는 향상된 SparseCore, 증가된 HBM 용량 및 대역폭, 개선된 ICI 네트워킹이 특징입니다. 구글 클라우드 고객은 고성능 및 효율성으로 까다로운 AI 워크로드를 처리할 수 있습니다. Gemini 2.5 및 노벨상 수상자인 AlphaFold와 같은 주요 사고 모델은 모두 오늘날 TPU에서 실행됩니다. 아이언우드는 올해 말 구글 클라우드 고객에게 제공될 예정입니다.
참고)
특징 | 아이언우드 TPU (최대 구성) | NVIDIA H200 (단일 GPU) | NVIDIA B200 (단일 GPU, 추정) |
---|---|---|---|
주요 목표 | 추론 | 범용 (학습 및 추론) | 범용 (학습 및 추론) |
FP8 성능 | 42.5 Exaflops | 2 Petaflops (추정) | 4.5 Petaflops (추정) |
HBM 용량 | 9,216 칩 구성 시 총 192GB/칩 | 141GB | 192GB |
HBM 대역폭 | 7.2 TB/s/칩 | 4.8 TB/s | 최대 8 TB/s |
상호 연결 대역폭 | 1.2 TB/s (양방향, 칩 간) | 900 GB/s (NVLink) | – |
전력 효율 | 이전 대비 2배 향상 | – | – |
아이언우드는 추론에 특화 설계되었으며, NVIDIA 칩들은 범용적인 워크로드에 맞춰져 있습니다. 따라서 직접적인 성능 비교는 어려울 수 있습니다. 표의 NVIDIA GB200 수치는 NVL72 구성(72개 GPU) 기준이며, B200은 단일 칩 기준입니다. FP8 성능은 측정 방식과 조건에 따라 차이가 있을 수 있습니다. NVIDIA 칩의 경우, 스파시티(sparsity)를 활용한 성능 수치를 별도로 제시하는 경우가 많으나, 여기서는 일반적인 FP8 성능을 기준으로 비교했습니다. 아이언우드는 칩 간 상호 연결 대역폭이 높은 것이 특징이며, 이는 대규모 추론 작업에 유리할 수 있습니다. 구글은 아이언우드의 전력 효율이 이전 세대 대비 2배 향상되었다고 강조합니다.
구글은 검색, 지메일, 유튜브, AI에 반도체 칩까지….
모든 분야에서 선도적인 기업이라고 생각되네요….
아이언우드는 AI 추론 분야에서 중요한 발전을 의미합니다. 성능과 에너지 효율성이 향상되어 더 복잡한 AI 모델을 더 효율적으로 실행할 수 있습니다. 이는 AI 기술의 발전을 가속화하고 다양한 산업에 혁신을 가져올 수 있습니다. 아이언우드가 구글 클라우드 고객에게 제공되면 AI 채택이 더욱 확대될 것으로 예상됩니다.