谷歌张量处理单元(TPU)深度研究报告:架构演进、行业地位、供应链动态与未来商业愿景

谷歌张量处理单元(TPU)深度研究报告:架构演进、行业地位、供应链动态与未来商业愿景

摘要

在生成式人工智能(Generative AI)重塑全球计算范式的当下,底层算力基座的效率与成本已成为科技巨头竞争的胜负手。谷歌张量处理单元(Tensor Processing Unit, TPU)作为全球最成功的定制化人工智能加速器(AI ASIC),正经历从支撑谷歌内部生态到转型为商用算力平台的战略跃迁。本报告旨在从投资研究视角,深度剖析 TPU 十年的架构演进逻辑,评估其在与英伟达(Nvidia)GPU 竞争中的性能与成本(TCO)优势,解析博通(Broadcom)、联发科(MediaTek)及存储巨头构成的复杂供应链,并展望其作为独立算力业务对谷歌云收入及全球半导体格局的深远影响。

第一章 TPU 的演进史:从推理专用到通用 AI 超级计算机

谷歌对定制芯片的探索始于对算力极限的深刻预判。早在 2013 年,谷歌内部意识到语音搜索等神经模型需求的指数级增长将使数据中心成本翻倍,这一危机感直接催生了 TPU 的研发。

1.1 初期探索:TPU v1 的脉动阵列创新

2015 年秘密部署、2016 年正式公开的 TPU v1 是一个纯推理加速器。其核心贡献在于引入了脉动阵列(Systolic Array)架构,专门用于加速 8 位整数(INT8)矩阵乘法。与通用 CPU 或 GPU 频繁读写寄存器的逻辑不同,脉动阵列让数据像血液一样在计算单元格之间直接流动,大幅降低了功耗。在 28nm 工艺下,TPU v1 实现了比同时期处理器高出 30 至 80 倍的每瓦性能,这一成功验证了专用加速器在特定负载下的统治力。

1.2 训练转型与精度革命:v2 到 v4

随着 Transformer 架构的兴起,训练算力成为瓶颈。2017 年推出的 TPU v2 实现了从推理向训练的跨越。谷歌引入了 bfloat16 浮点格式,这是一种极具洞察力的设计权衡:它保留了 FP32 的 8 位指数范围以确保训练稳定性,但将尾数截断至 7 位以减半内存带宽需求。TPU v2 还首次引入了片间互联(ICI)技术,利用 2D 环面拓扑将芯片连接成 Pod,开启了算力线性扩展的先河。

TPU v3(2018 年)通过液冷技术突破了热设计功耗限制,使 Pod 规模提升至 1,024 芯片。而 2020 年发布的 TPU v4 则在系统工程上达到了新高度。它采用了 3D 环面拓扑,并引入了光电路交换(OCS)技术。OCS 允许在几秒钟内物理重新配置网络拓扑,不仅提高了系统鲁棒性,还让超大规模分布式训练的效率大幅提升。

1.3 现代旗舰:v5e、v5p 与 Trillium (v6e)

2023 年,谷歌采取了差异化产品策略。TPU v5e 侧重于成本效益,而 TPU v5p 则追求极致的训练性能。2024 年推出的第六代 TPU Trillium(v6e)在峰值计算性能上比 v5e 提升了 4.7 倍,并集成了第三代 SparseCore 加速器,专门优化推荐系统中的稀疏嵌入计算。Trillium 在单个 TPU 集群中可提供 91 ExaFLOPS 的算力,规模是 v5p 集群的 4 倍。

1.4 推理巅峰:TPU v7 Ironwood

2025 年末正式商业化的第七代 TPU Ironwood 标志着谷歌在推理侧的全面发力。Ironwood 拥有 192GB 的 HBM3e 内存和 7.4 TB/s 的带宽,单芯片峰值性能达 4,614 TFLOPS (FP8)。其设计的核心目标是应对万亿参数级模型的高并发、低延迟推理需求。

硬件特征TPU v5eTPU v6e (Trillium)TPU v7 (Ironwood)
峰值算力 (INT8/FP8)393 TOPs1836 TOPs4,614 TFLOPS
HBM 容量16 GB32 GB192 GB
HBM 带宽800 GBps1600 GBps7.4 TB/s
片间互联带宽 (ICI)400 GBps800 GBps1.2 Tbps
最大集群规模 (Pod/Superpod)256 芯片256 芯片 (Pod)9,216 芯片集群
峰值算力100 PetaOps234.9 PFLOPs42.5 ExaFLOPS

第二章 行业地位:从内研利器到商用挑战者

在 AI 芯片领域,谷歌 TPU 的行业地位正处于从“谷歌全家桶的后端”向“全球 AI 算力第二极”转变的十字路口。

2.1 垂直集成的先驱与受益者

谷歌作为全球最大的互联网服务商之一,其 TPU 的研发始终服务于 Gemini 模型、搜索(Search)、YouTube 推荐以及 Photos 等核心产品。这种垂直集成模式带来了显著的“研究-硬件循环”优势:DeepMind 的研究人员可以直接参与芯片架构定义,而 TPU 硬件则为 Transformer 等算法的演进提供了定制化的加速路径。例如,Gemini 3 模型的训练完全在 TPU 上完成,证明了其在大规模前沿模型开发中不依赖英伟达的独立性。

2.2 市场格局的震荡:TPU 外部化

尽管英伟达目前仍持有超过 90% 的 AI 芯片市场份额,但谷歌正通过“百万 TPU 计划”向英伟达发起正面挑战。谷歌不再仅将 TPU 局限于云端虚拟化租用,而是开始向 Meta 等外部巨头直接销售或长期出租物理芯片组。Meta 正在考虑在 2027 年投入使用的私人数据中心大规模部署 TPU,这标志着 TPU 正式进入“商用芯片(Merchant Silicon)”市场。

2.3 竞争中的差异化定位

相比亚马逊 AWS 的 Trainium/Inferentia 和微软 Azure 的 Maia,谷歌 TPU 在大规模训练集群的成熟度和软件栈的深度上明显领先。谷歌云目前持有全球约 13% 的份额,虽然落后于 AWS 和 Azure,但在 AI 专用算力领域的独特性使其收入增速超过了大盘。

第三章 性能与成本:TPU 与 Nvidia 的深度博弈

在投资价值评估中,单纯的原始算力对比不足以说明问题,总拥有成本(TCO)和模型利用率(MFU)才是核心。

3.1 原始性能对比:专用 vs. 通用

英伟达的 Blackwell(B200/B300)架构在通用性和单芯片峰值算力上依然占据优势。但在超大规模集群(9,000+ 芯片)环境下,TPU 的线性扩展能力往往能反超 GPU 系统。

关键指标Nvidia B200Google TPU v7 (Ironwood)洞察分析
单芯片 FP8 算力约 4.5+ PFLOPS4,614 TFLOPS英伟达单卡性能略强,但 TPU 单元结构更简单
互联技术NVLink 5 (1.8 TB/s)ICI (1.2 Tbps)英伟达互联带宽密度高;谷歌 OCS 灵活性强
大规模扩展性NVL72 域9,216 芯片 Superpod谷歌在极大规模单域计算中具有系统级优势
模型利用率 (MFU)45-55% (典型值)55-65%+ (优化后)TPU 的编译优化使其在特定模型下效率更高

3.2 经济性分析:TCO 护城河

对于投资者而言,最震撼的数据来自成本端。根据 SemiAnalysis 的估算,谷歌内部部署 Ironwood 的成本比等效英伟达系统低约 44%。即使谷歌在向外部客户(如 Anthropic)供货时加收溢价,TPU v7 的 TCO 仍比英伟达 GB200 系统低 30%,比未来的 GB300 低 41%。这种成本优势源于:

  • 硬件精简:TPU 剔除了 GPU 中负责图形渲染和大量通用计算的晶体管,将面积全部用于张量计算和内存控制。
  • 每瓦性能:TPU 在推理任务中的每瓦性能比 GPU 高 2-3 倍,在兆瓦级数据中心中这意味着每年数亿美元的电费节省。
  • 避免“溢价陷阱”:谷歌无需支付英伟达高达 70%-80% 的硬件毛利,这使得其在推理成本上可以将 GPT-5 类模型的推理单价降至英伟达的一半。

3.3 实战测试:MLPerf 与 LLM 吞吐量

在 Llama 2 70B 的推理实测中,英伟达 H100 集群可达到约 31,000 tokens/sec,而 8 芯 TPU v5e 的吞吐量约为 2,175 tokens/sec。虽然单看数字 TPU 较弱,但考虑到 8 芯 v5e 的租金仅为 $11/小时,而英伟达 H100 集群租金可能高达十倍,TPU 的“单币成本”具有压倒性优势。Trillium 和 Ironwood 的加入正迅速弥补吞吐量上的绝对值差距。

第四章 供应链解析:博通与联发科的竞合与存储格局

TPU 供应链的成熟度和多元化是其能大规模出货的先决条件。

4.1 核心合作伙伴:博通(Broadcom)

博通是 TPU 项目自诞生以来的“影子功臣”。谷歌负责架构定义,博通则负责将其转化为可量产的物理芯片,并提供高速 SerDes 接口和 ASIC 设计服务。2025 年末,博通披露了来自 Anthropic 的 210 亿美元 TPU 订单,这不仅印证了博通在 AI ASIC 领域的霸主地位,也反映出 TPU 市场需求的爆发式增长。

4.2 供应链新势力:联发科(MediaTek)

为了进一步优化成本,谷歌在 Ironwood (v7) 及后续世代中引入了联发科。联发科利用其在台积电 N3P(3nm)工艺上的先进经验和供应链整合能力,主要负责设计 I/O 模块和成本敏感型版本(如 TPU v7e)。这一举措预计能让谷歌的芯片制造成本在现有基础上再降 20%-30%。

4.3 存储巨头的博弈:三星与 SK 海力士

AI 芯片的扩产正受到 HBM 供应的制约。在 2025 年,三星电子供应了谷歌 TPU 超过 60% 的 HBM3e 需求。三星通过重新设计其 1a 级 DRAM 解决了早期热量控制问题,成功在博通的供应体系中占据了主导地位。与此同时,SK 海力士在 Ironwood 采用的 12 层 HBM3e 模块中依然保有高端技术溢价,两家韩国巨头均受益于谷歌 TPU 产能的疯狂扩张。

第五章 软件战略:Assault on CUDA 与 TorchTPU

英伟达最深的护城河并非硅片,而是 CUDA 生态。谷歌深知,如果不解决开发者的迁移壁垒,硬件再便宜也难以普及。

5.1 从 JAX 到 PyTorch 的转向

历史上,TPU 的最佳性能必须通过谷歌自有的 JAX 框架和 XLA 编译器获得,这让习惯于 PyTorch 的主流开发者望而却步。为了攻克这一堡垒,谷歌发起了 "TorchTPU" 项目。该项目旨在让 PyTorch 在 TPU 上实现原生运行,无需重写底层算子,从而降低“CUDA 锁定”带来的转换成本。

5.2 Meta 的关键角色

Meta 作为 PyTorch 的发源地,在 TorchTPU 项目中与谷歌结成了战略同盟。对 Meta 而言,支持 TPU 原生运行 PyTorch 既能为其节省数十亿美元的推理电费,又能成为其与英伟达价格谈判中最重要的筹码。这种联合不仅是技术上的兼容,更是对单一供应商霸权的集体性反击。

第六章 未来展望:通往百万芯片与百亿收入之路

谷歌 TPU 的未来不仅仅是一个硬件加速器,它正进化为一个独立的计算帝国。

6.1 财务与市场前景

摩根士丹利预测,随着外部化战略的推进,TPU 相关业务有望为谷歌云带来约 130 亿美元的新增收入,到 2027 年可能贡献谷歌云总收入的 11%。随着谷歌直接向第三方出货物理芯片,其身份将从“软件公司”转变为具备重资产壁垒的“算力设备商”。

6.2 算力集群的形态演进

未来的 TPU 集群将向万卡级、多 Petabyte 共享显存的方向发展。Ironwood Superpod 展示了 9,216 个芯片通过 9.6 Tb/s ICI 网络无缝协作的能力,这种“行星级超级计算机”的构建能力是初创芯片公司无法逾越的护城河。同时,通过 AlphaChip(利用 AI 设计 AI)的自演进,谷歌有望在 2026-2028 年间实现芯片设计周期的减半。

6.3 投资风险与挑战

尽管前景光明,但 TPU 的外部化仍面临软硬件兼容、生态闭环过深以及英伟达 Blackwell Ultra 等新产品的竞争压力。此外,对三星和台积电产能的极度依赖也带来了地缘政治和供应链集中的风险。

结论

谷歌 TPU 是 AI 淘金热中唯一能在大规模商业化上对英伟达构成实质性威胁的“铲子”。它通过极致的专用化架构实现了比通用 GPU 更低的 TCO,通过垂直集成保证了对最前沿模型的算力先发优势,并正通过 TorchTPU 主动瓦解 CUDA 的软件垄断。对于投资者而言,关注 TPU 的供应链动态(如博通和联发科的订单情况)以及大客户(如 Meta 和 Anthropic)的部署进度,将是判断 2026 年之后全球 AI 利益分配格局的核心指标。谷歌正以此为支点,试图在 AI 时代重塑半导体与云服务的边界。

来源:https://vestlab.beikee.org/

评论