【GOOGLE】第八代TPU:面向智能代理的双芯方案

Google 发布第八代自研 TPU,包括面向大规模训练的 TPU 8t 与面向低延迟推理的 TPU 8i,二者通过硬件、互连与散热等协同设计提升能效与吞吐,旨在支撑持续推理与多步智能代理工作负载。芯片将于今年晚些时候对外提供更多信息与可用性计划。

概览

  • 第八代 TPU 包含两款专用芯片:TPU 8t(训练)与 TPU 8i(推理/服务)。
  • 目标场景:大规模模型训练、低延迟推理以及需要多步决策和持续学习的智能代理。

TPU 8t(训练)要点

  • 为极大计算密集型训练设计,强调更高的算力吞吐与扩展带宽(scale-up bandwidth)。
  • 适配前沿基础模型与需要大规模并行的训练任务。

TPU 8i(推理/服务)要点

  • 优化低延迟、高吞吐的推理场景,支持快速交互与协作型代理。
  • 侧重更大的内存与服务延迟/带宽平衡以满足生产部署需求。

共同特性与工程亮点

  • 十余年定制化设计积累:在数值格式、液冷方案、自定义互连与软硬协同上持续演进。
  • 与 Google DeepMind 等内部团队协作,共同面向代理化、迭代化的模型需求进行共设计。
  • 目标提升能效与绝对性能,以降低运行同等 AI 工作负载的成本与能耗。

部署与可用性

  • Google 表示这两代 TPU 将在今年晚些时候逐步提供更多信息与可用性计划,现可提交咨询或获取更多资料。

适用人群与影响

  • 研发大型基础模型、构建实时/交互式智能代理和在生产中部署高并发推理服务的团队将直接受益。
  • 硬件专用化趋势表明基础设施与模型共同设计将成为提升能效与性能的关键路径。

对需同时兼顾大规模训练与低延迟推理的团队,这种训练/推理分工的芯片策略很务实,但能否显著降低端到端成本还需实测验证。

原文链接

Leave a Comment