INDIGO TALK / 驱动 AI 的加速计算 - EP14 - INDIGO TALK

INDIGO TALK 第十四期，本期邀请来自 Google TPU 团队的芯片设计工程师郑琪霖，还有 Indigo 的播客老搭档李厚明，一同深入探讨了 AI 计算基础设施的技术演进和行业格局。从加速计算的基础知识，到 GPU 和 TPU 的发展历程，再到当下 ChatGPT 驱动的大模型时代，琪霖用生动的厨房比喻和技术洞见，展现了 AI 加速计算领域从硬件竞争到软硬协同的产业变革历程。

本期嘉宾

郑琪霖（Google TPU 芯片工程师 - 嘉宾）

李厚明（棕榈资本创始人 - 主持）

Indigo（数字镜像博主）

时间轴与内容概要

03:12 计算的基础架构（以厨房为类比）

CPU 的核心组件类比厨房设施：计算核心如厨房台面、内存如冰箱、存储如橱柜

算法类比做菜的菜谱

强调了硬件、存储和算法三大核心要素的协同工作

从单一简单厨房到专业厨房的演进类比计算机架构的发展

04:37 CPU 发展史与摩尔定律

从 70-80 年代的简单架构开始发展

摩尔定律推动芯片集成度不断提升

引入 Cache、SRAM 等存储层级优化

发展出 CISC 复杂指令集

多核并行处理技术的演进

到 3 纳米制程接近物理极限

09:37 GPU 的诞生与发展

最初设计用于图形处理（Graphics Processing）

2006 年 NVIDIA 推出 CUDA 开启 GPGPU 时代

具备大规模并行计算能力

从游戏显卡到通用计算处理器的转变

比特币挖矿带来早期商业成功

12:30 TPU/NPU 的出现与特点

TPU专注张量运算（Tensor Processing）

NPU针对神经网络优化（Neural Processing）

牺牲通用性换取特定领域的高效能

降低运算精度以提升效率

采用本地内存（Local Memory）架构

21:00 AI 芯片的发展时间线

2012 年：ImageNet 竞赛展现深度学习潜力

2015 年：AlphaGo 引发全球 AI 热潮

2015 - 2018 年：各大公司开始布局AI芯片

2019 - 2022 年：Covid 期间发展相对停滞

2022 年底：ChatGPT 带来全新的突破需求

35:55 大模型训练的硬件需求

需要大规模 GPU 集群

对硬件互联技术要求高

NVIDIA 的 NVLink 技术优势

数据中心级别的整体优化

预计未来需要百万级 GPU 集群

48:03 推理（Inference）市场的机遇

相比训练市场竞争更为开放

终端设备（Edge）推理需求增长

软硬件协同设计的重要性

对功耗和效率要求更严格

需要针对具体应用场景优化

59:07 行业竞争格局

拥有模型的公司占据优势

软件和硬件协同设计越发重要

Meta、Apple、Google 等科技巨头在推理市场具有优势

NVIDIA 的垄断地位短期内难以撼动

01:08:22 未来发展趋势

预计 2027 年出现千亿美元规模训练集群

Edge 端设备（如AR眼镜）将成为新战场

AI 设计芯片成为可能

软件驱动硬件的发展模式

模型拥有者将占据优势地位

这次播客深入探讨了AI计算领域的技术演进、市场格局和未来趋势，展现了从单纯的硬件竞争到软硬协同的产业变革过程。

嘉宾精彩发言

关于硬件和软件的协同优化

"我现在感受到是说软硬件的那个交互。你那个 core 是怎么算的实际上没有那么重要 ... 比如说我做硬件，我给提升了 90%，但是你软件跟不上，你提升东西你用不起来。"

关于 ChatGPT 时代的 GPU 训练需求

"这 ChatGPT 必须要用 GPU 训练为什么呢？因为 GPU 可以提供 General Purpose 的处理 … 我在模型没有固定的情况下，我拿一个 domain specific 的东西去处理是没有意义的。"

关于未来 AI 芯片设计的发展

"我不认为我的工作被 AI 取代不了 … 这将是人类一个很伟大的时代，你这时候你还琢磨你明天吃什么，你工作会不会被替代，那太没意思了。"

对 TPU/NPU 架构特点的解释

"就是 GPU 它为了保证 General Purpose，它实际上是舍弃了很多性能 … 我现在算神经网络，不需要那么高精度，就是你知道这个图差不多，糊的也能认出来，不糊的也能认出来。"

关于推理市场的前景

"我个人感受到现在如果谁没有大模型的话，就很难继续进场 … 其实现在我们掰着手指头数都数的出来谁手上有好的大模型。"

对计算架构演进的精辟总结

"所以整个这一套就是一个最基本的一个计算机 … 也就是 CPU，整个硅谷就是基于这样一个最简的东西开始往前走的。"

关于 AI 基础设施建设阶段的观点

"我们现在还处于 AI Infra 的初期阶段，Infra 都还不成熟。现在我们推理还很混乱，每家都有自己的方案 ...训练这算被统一了，因为现在的英伟达的绝对实力把它统一了。"

对未来端侧计算的预测

"我怎么把这个 ChatGPT 做手机里，把 ChatGPT 做机器人上，embody AI 嘛，就是说 physical，而不是说一定要所有东西跑到服务器上去算一下 … 而且我觉得这个可能 90% 多的这种需求都是在本地完成计算。