【关于本期】
近期,Meta 发布的 Movie Gen 文生视频生成模型,依托近万块 Nvidia H100 显卡的强大算力在云端完成训练,打造了AI生成的沉浸式场景体验。而苹果则采取了另一种路径,在利用云服务运行Apple Intelligence系统的同时,也隐私化地利用端侧 Apple 芯片驱动的设备学习用户专属的人工智能模型。这种云端与设备端的技术选择差异,凸显了当前大模型训练和部署方式的多样性——究竟是依赖云端的超大算力,还是通过设备端的优化与隐私保护来实现高效推理?
事实上,这背后反映的是科研圈和工业界广泛关注的模型训练与推理效率的优化问题。在大模型规模迅速扩张的时代,系统的效率与稳定性优化不仅是一个巨大的财务考量(例如,Anthropic 目前将近一半的营收用于购买 AWS 计算服务),更直接影响模型迭代的速度和周期。在本期播客中,我们很开心邀请到了 UC Berkeley 的李卓翰博士和 Meta FAIR 的赵嘉玮博士,共同探讨 LLM 训练与服务中的核心算法、优化策略、以及实际应用中的云计算与端计算之争,并深入分析这些选择如何影响部署成本与未来发展趋势。
【嘉宾介绍】
李卓翰:UC Berkeley PhD,导师Ion Stoica。他的研究方向是机器学习系统。他的工作包括Alpa,AlpaServe,Vicuna,以及 vLLM(PagedAttention)。他是开源项目vLLM(github.com)的创始人以及维护者之一。vLLM是目前最流行的开源大语言模型推理及部署引擎,并且在工业界被广泛部署。
赵嘉玮 (X: @jiawzhao):Meta FAIR 高级研究科学家。他的研究方向主要聚焦于与硬件效率结合的模型优化训练方法,通过理解神经网络的训练原理和硬件上限制的相互关系,来设计更高效的训练范式。他近期的研究重点是内存高效的大模型预训练和微调方法,包括提出GaLore, InRank等一系列新型训练算法。其中GaLore已经融入主流深度学习平台例如PyTorch和HuggingFace中,并且项目拥有超过10万次的下载量。博士毕业于加州理工学院。
【降落伞】
02:55 嘉宾介绍
破解大模型的系统级训练(Training)难题
06:37 大模型的训练算法(SGD, Adam)
08:36 大模型训练的设备和内存需求
11:08 大模型训练对算法的要求
12:49 大模型训练的数据量和自监督学习
15:22 系统设计在大模型商业化中的重要性
19:24 修改机器学习算法的收益与风险
22:20 大模型预训练(pretrain & continual pretrain)与微调(finetune)
26:59 大模型训练的无损优化
29:45 大模型训练的有损优化(GaLore)
破解大模型的系统级服务(Serving)难题
36:14 如何降低模型推理的部署成本
41:42 vLLM项目的诞生
44:15 vLLM开源之后的维护
46:18 vLLM在单个模型上对用户请求的优化
50:23 跨模型请求的优化的推理框架
57:40 对vLLM未来开源贡献者的设想
1:01:34 云端(Cloud) LLM和终端(Edge) LLM的差异
大模型训练与推理系统优化的商业化问题
1:05:28 算力友好的PEFT和MEFT的落地
1:08:04 去中心化(decentralized)的大语言模型背后的商业思维和隐私问题
1:13:27 服务于大模型算力需求的明星公司
1:16:08 未来展望: AGI的愿景是寻求突破
【制作团队】
主理人:
- 刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。
- 徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,Ex-Meta机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型间的共通之处。
制作:
- 黄芊雅:复旦大学新闻学院
- 邱鑫:上海交大安泰经管学院
- 王翌婷:复旦大学计算机学院
【音乐版权】
- Time by Pold soundcloud.com|Free Download / Stream: tinyurl.com|Promoted by Audio Library tinyurl.com
- Look At The Clouds by Declan DP|Free Download / Stream: bit.ly|Promoted by Audio Library bit.ly
- vLLM: docs.vllm.ai
- GaLore: arxiv.org