S1E03 | 英伟达股价遥遥领先，AI算力供应还有新蛋糕吗 - 出埃及记Exodus

【关于播客】

欢迎大家一同加入出埃及记的旅程!关注底层逻辑，剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目，我们会邀请全球顶尖院校的博士生或技术背景的初创公司创始人，一起聊聊人工智能等计算机科学或其他交叉领域的最新动态，分享他们的研究工作和相关洞察。

即日起，我们的长视频版本将逐步上线于Youtube和Bilibili，观众老爷们可以更便捷地在长视频中观看带字幕的视频，也便于大家理解对谈中涉及的任何专业语汇。与此同时，我们也将在小红书和视频号发布一些视频切片，呈现采访过程中的灵感时刻。

当然，欢迎关注我们的微信公众号加听友群，跟进更多动态。

【关于本期】

在Nvidia的Q1财报发布后，Nvidia的股价首次飙升至1000美元以上。在AI的算法不断推陈出新的当下，大模型对于算力的需求暴涨令人瞩目，这其中隐藏了哪些机会？本期播客我们邀请三位行业内部人士，从不同的角度切入，共同探讨如何在AI的热潮背景下，从计算效率的角度寻找突破。我们将与教授学者、大厂资深软件研究科学家以及计算机硬件研究博士对话，探究在高昂的算力成本和日益严峻的能源问题面前，如何通过创新思路，例如专用小模型和定制化芯片技术，来实现更高效环保的发展路线。

【嘉宾介绍】

周佩佩（LinkedIn: zhoupeipei)：美国匹兹堡大学电子与计算机工程系助理教授，博导，博士毕业于UCLA计算机系。研究方向包括：芯片电子自动化设计，自动代码生成，编译器优化等。获得2019年计算机体系结构顶刊IEEE集成电路和系统的计算机辅助设计TCAD最佳论文奖(<2‰)，2019年UCLA计算机系杰出科研奖，2018年ACM/IEEE计算机辅助设计国际会议ICCAD最佳论文提名，2018年IEEE国际系统和软件性能国际会议ISPASS最佳论文提名。

刘泽春（X: @zechunliu）：Meta Reality Labs 高级研究科学家，博士毕业于HKUST计算机系，师从Kwang-Ting Tim CHENG，卡耐基梅隆大学访问学者，师从Marios Savvides与Eric Xing。她的研究方向聚焦端测模型压缩和加速，google scholar论文引用量3900。她的近期研究工作包括 LLM-QAT、LLM-FP4 和 MobileLLM 等，为在移动端设备上部署高效的大型语言模型提供了可行解。

樊子辰：密歇根大学电子工程系博士生，师从Dennis Sylvester教授与David Blaauw教授。本科毕业于清华大学电子系。研究方向包括：高能效神经网络加速器设计，低功耗集成电路设计，神经网络模型量化等。他近期主要研究工作包括移动端多任务自然语言和图像处理加速系统设计。他曾在ISSCC，VLSI，ISCA，JSSC等国际顶级会议与期刊发表文章十余篇，曾获得2023年IEEE国际专用系统、架构与处理器会议ASAP最佳论文奖。

【开降落伞】

背景科普

05:28 在大模型(LLM)的计算范式中计算效率的重要性

09:07 小公司预训练(Pretrain)大模型的可行性

10:23 训练和推理大模型对硬件的真实需求

软件角度的LLM等人工智能算法加速

11:50 大语言模型的软件层面计算效率优化的新技术

15:13 Scaling law & Scale up and Scale down

18:23 LLM的高效微调(finetune)

20:45 LLM的高效推理(inference)

21:54 小模型和大模型的区别

23:29 小模型的独特架构设计

25:03 LLM架构设计的软硬件结合方法: FlashAttention

27:54 TensorRT和CUDA

30:20 英伟达(Nvidia)的技术壁垒

硬件角度的LLM等人工智能算法加速

31:30 大模型中的长序列输入处理的挑战和解决方法

34:14 传统计算架构中的CPU/GPU/TPU

41:05 近内存计算(Near-Storage Computing)与LLM的适配

43:54 定制化硬件公司Groq和Cerebras的发展和愿景

50:00 摩尔定律缩放减缓对算力提升的影响

51:50 数据中心的发展趋势和优化技术

57:12 为什么芯片的设计周期这么长?

1:02:43 芯粒(Chiplet)技术及其前景

展望未来

1:08:34 对新架构、新软硬件结合方式和加速方式的看法

1:14:34 对AGI到来的看法

【关于主播】

刘杰尼：社科传媒本计算机研，Ex高盛TMT投行吗喽，接触过各种行业和国内外项目，混过大厂小厂和创业公司，并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰，试图更好地活在科技与人文的交叉点。

徐胖虎：电子工程本，计算机硕博，现加州大学某海景分校论文力工，incoming Meta机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算，试图理解生物人脑和暴力美学的大模型之间的共通之处。

【音乐版权】

Time by Pold soundcloud.com｜Free Download / Stream: tinyurl.com｜Promoted by Audio Library tinyurl.com

Look At The Clouds by Declan DP｜Free Download / Stream: bit.ly｜Promoted by Audio Library bit.ly