- S1E07 | 大模型在万卡时代的扩展挑战:从云到端的训练与推理系统优化
【关于本期】 近期,Meta 发布的 Movie Gen 文生视频生成模型,依托近万块 Nvidia H100 显卡的强大算力在云端完成训练,打造了AI生成的沉浸式场景体验。而苹果则采取了另一种路径,在利用云服务运行Apple Intelligence系统的同时,也隐私化地利用端侧 Apple 芯片驱动的设备学习用户专属的人工智能模型。这种云端与设备端的技术选择差异,凸显了当前大模型训练和部署方式的多样性——究竟是依赖云端的超大算力,还是通过设备端的优化与隐私保护来实现高效推理? 事实上,这背后反映的是科研圈和工业界广泛关注的模型训练与推理效率的优化问题。在大模型规模迅速扩张的时代,系统的效率与稳定性优化不仅是一个巨大的财务考量(例如,Anthropic 目前将近一半的营收用于购买 AWS 计算服务),更直接影响模型迭代的速度和周期。在本期播客中,我们很开心邀请到了 UC Berkeley 的李卓翰博士和 Meta FAIR 的赵嘉玮博士,共同探讨 LLM 训练与服务中的核心算法、优化策略、以及实际应用中的云计算与端计算之争,并深入分析这些选择如何影响部署成本与未来发展趋势。 【嘉宾介绍】 李卓翰:UC Berkeley PhD,导师Ion Stoica。他的研究方向是机器学习系统。他的工作包括Alpa,AlpaServe,Vicuna,以及 vLLM(PagedAttention)。他是开源项目vLLM(https://github.com/vllm-project/vllm)的创始人以及维护者之一。vLLM是目前最流行的开源大语言模型推理及部署引擎,并且在工业界被广泛部署。 赵嘉玮 (X: @jiawzhao):Meta FAIR 高级研究科学家。他的研究方向主要聚焦于与硬件效率结合的模型优化训练方法,通过理解神经网络的训练原理和硬件上限制的相互关系,来设计更高效的训练范式。他近期的研究重点是内存高效的大模型预训练和微调方法,包括提出GaLore, InRank等一系列新型训练算法。其中GaLore已经融入主流深度学习平台例如PyTorch和HuggingFace中,并且项目拥有超过10万次的下载量。博士毕业于加州理工学院。 【降落伞】 02:55 嘉宾介绍 破解大模型的系统级训练(Training)难题 06:37 大模型的训练算法(SGD, Adam) 08:36 大模型训练的设备和内存需求 11:08 大模型训练对算法的要求 12:49 大模型训练的数据量和自监督学习 15:22 系统设计在大模型商业化中的重要性 19:24 修改机器学习算法的收益与风险 22:20 大模型预训练(pretrain & continual pretrain)与微调(finetune) 26:59 大模型训练的无损优化 29:45 大模型训练的有损优化(GaLore) 破解大模型的系统级服务(Serving)难题 36:14 如何降低模型推理的部署成本 41:42 vLLM项目的诞生 44:15 vLLM开源之后的维护 46:18 vLLM在单个模型上对用户请求的优化 50:23 跨模型请求的优化的推理框架 57:40 对vLLM未来开源贡献者的设想 1:01:34 云端(Cloud) LLM和终端(Edge) LLM的差异 大模型训练与推理系统优化的商业化问题 1:05:28 算力友好的PEFT和MEFT的落地 1:08:04 去中心化(decentralized)的大语言模型背后的商业思维和隐私问题 1:13:27 服务于大模型算力需求的明星公司 1:16:08 未来展望: AGI的愿景是寻求突破 【制作团队】 主理人: * 刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。 * 徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,Ex-Meta机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型间的共通之处。 制作: * 黄芊雅:复旦大学新闻学院 * 邱鑫:上海交大安泰经管学院 * 王翌婷:复旦大学计算机学院 【音乐版权】 * Time by Pold soundcloud.com|Free Download / Stream: tinyurl.com|Promoted by Audio Library tinyurl.com * Look At The Clouds by Declan DP|Free Download / Stream: bit.ly|Promoted by Audio Library bit.ly * vLLM: https://docs.vllm.ai/en/latest/ * GaLore: https://arxiv.org/abs/2403.03507
- S1E06 | AI驱动的语音交互革命:探究GPT4o背后的技术逻辑
【关于本期】 OpenAI终于在7月底兑现承诺,上线了GPT-4o高级语音模式的灰度测试,目前一小部分ChatGPT Plus用户已经拿到了尝鲜入场券。OpenAI表示,高级语音模式提供了更加自然、实时对话,可以随意打断,甚至它还可以感知、回应你的情绪。预计在今年秋季,所有ChatGPTPlus用户,都能用上这个功能。 ChatGPT的语音对话功能去年9月首次推出,今年5月在GPT4o发布会直播中推出了高级语音模式的demo。在demo演示中,GPT4o可以识别出OpenAI总裁Brockman所穿的衣服、身处的环境,甚至通过他周围的灯光布置推断出他可能正在进行视频直播。更令人惊讶的是,GPT4o在与Brockman对话时,可以识别出Brockman的情绪和语气,而其回复相比GPT3.5和GPT4,也更加活泼和生动。 但不管是因为C端产品对于安全性与稳定性的高要求,还是之前版本采用与寡姐斯嘉丽约翰逊高度相似声线诱发的风波,这个饼也终于在反复跳票后在7月底被落实。而我们恰好在2个月前跟做audio generation的两位博士生朋友交流对当时OpenAI发布会的GPT4o的看法。他们分别是MyShell联合创始人,麻省理工在读博士生秦增益,和卡耐基梅隆大学LTI WAVLab博士生史嘉彤。我们从创业公司和学界研究者的视角展开聊聊Audio/SpeechGeneration,其中的许多很有意思的观点在2个月后的今天看来,的确得到了验证。 【嘉宾介绍】 秦增益:MIT博士生,本科毕业于清华大学。研究范围包括音频生成、大语言模型和计算机视觉。他的语音生成模型OpenVoice在Github上获得27k stars,并登顶Github排行榜。他联合创立的生成式AI应用平台MyShell已有超过200万注册用户,并有超过10万个应用被创建 史嘉彤:卡内基梅隆大学LTIWAVLab博士生,师从ShinjiWatanabe教授。本硕分别毕业于中国人民大学和约翰霍普金斯大学计算机专业。研究方向主要在语音和音乐处理,近期主要关注于音频表征学习及其应用;他是语音处理框架ESPnet的主要贡献者,以及近年语音相关基准/比赛 SUPERB、ML-SUPERB、SVCC、IWSLT、DiscreteSpeech、SVDD、Dynamic SUPERB 的组织者和发起人。曾获卡内基梅隆大学校长奖学金,SLT2022以及ASRU2023最佳论文提名。曾多次在腾讯 AI Lab、Meta AI、IBM AI Research进行研究实习。 【降落伞】 02:28 自我介绍 【GPT4o,新世界的大门】 03:24 怎么看待GPT4o的发布? 05:23 怎么衡量不同任务中语音系统的能力?是否需要新的评价标准? 12:29 GPT4o在demo中展现的能力 16:40 为什么GPT4o尚未完全开放它的各项能力? 19:53 怎么看待GPT4o的免费版本? 【如何实现GPT4o的相关功能】 23:16 GPT4o和其他功能性AI的本质区别 27:02 serving的改善和旧模型的迭代 28:48 怎么实现GPT4o的实时性和低延迟? 45:39 端到端的speech generation 49:24 个人定制AI agents助手的前景 58:07 语音合成能不能“超越”真实的speech? 【GPT4o的未完待续】 1:03:27 GPT4o的数据处理过程与提升需求 1:11:03 一段语音中的哪些信息和语音处理有关? 1:16:05 用语音检测核酸? 1:18:51 GPT4o可能与其他服务商或API合作吗? 1:22:00 未来展望:超级智能的曙光 【制作团队】 主理人: * 刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。 * 徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,incoming Meta 机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型间的共通之处。 制作: * 黄芊雅:复旦大学新闻学院 * 邱鑫:上海交大安泰经管学院 * 王翌婷:复旦大学计算机学院 【音乐版权】 * Time by Pold soundcloud.com|Free Download / Stream: tinyurl.com|Promoted by Audio Library tinyurl.com * Look At The Clouds by Declan DP|Free Download / Stream: bit.ly|Promoted by Audio Library bit.ly
- S1E05 | Gemini与Chatbot Arena团队科学家:全网最强解读AI安全与对齐
【关于播客】 欢迎大家一同加入出埃及记的旅程!关注底层逻辑,剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目,我们会邀请全球顶尖院校的博士生或初创公司的创始人,一起聊聊人工智能等计算机科学或其他交叉领域的最新动态,分享他们的研究工作和相关洞察。 欢迎大家订阅收听,和关注我们的同名微信公众号,追踪最新内容。;p 【关于本期】 今年5月,Ilya为代表的Open AI超级对齐团队大面积离职;6月19日,在离开Open AI一个月后,Ilya拉上了Y Combinator合伙人和前open AI技术专家成立了SSI(safe super intelligence),旨在创建安全而强大的人工智能系统。AI技术与产品发展狂奔的另一面,是越来越多的有关人工智能是否会给人类社会带来风险和利益侵害的忧虑。 除了业界许多产品项和工程项的人大多持有有效加速的观点外,学界的观点像在打擂台一样构成了媒介议程。图灵奖AI三巨头之二的Bengio、Hinton以及我们熟知的姚期智等顶级科学家联名在Science刊登文章,警示无节制发展AI的风险;而图灵AI三巨头的另一位Yann LeCun、斯坦福的吴恩达教授以及李飞飞和John Etchemendy等学者则对人类控制AI的能力表示乐观。 本期我们很荣幸地请到Google DeepMind团队的刘睿博博士,和UC Berkeley PHD毕业的朱邦华博士,来跟我们从业界和学界的视角展开聊聊AI安全与AI对齐。本期播客将为大家揭露GPT4o不为人知的内幕,并希望从专业视角带来“超级对齐”的深度解读。 【嘉宾介绍】 刘睿博:Google DeepMind高级研究科学家。参与开发了Google多模态大语言模型Gemini 1.0/1.5和轻量级生成式AI开放模型Gemma。目前研究方向聚焦于人工智能对齐,曾获AAAI 2021年杰出论文奖。博士毕业于达特茅斯学院。 朱邦华:生成式AI网络安全初创公司Nexusflow联合创始人,即将作为助理教授入职华盛顿大学。参与开发了Starling-7B、NexusRaven-13B、Chatbot Arena以及Arena Hard Auto pipeline。研究方向包括基础模型、AI交互和强化学习,博士毕业于UC Berkeley。 【开降落伞】 概念科普 04:53 AI安全性的意见光谱 09:47 AI对齐(alignment)与AI安全(security)的关系 14:26 什么是“超级对齐”(super-alignment)? AI alignment的发展预测 19:11 AI对齐的常见问题和发展路径 24:02 为什么要利用合成数据(Synthetic data)训练模型? 30:20 Chatbot Arena中,GPT会更偏好利用GPT合成数据训练出的模型吗? 31:50 学界与业界的AI alignment研究的区别 39:06 未来3-5年AI监管在研究和政策层面的预测 42:15 近期有哪些有趣的AI alignment work? 48:03 如何对人类的特征进行定量评估? 什么是好的评估(evaluation)? 52:28 GPT4-o后,对大语言模型有什么新期待? 安全性和评估方法 58:21 如何对不同大模型的安全性和preference进行评估? 61:23 从弱到强的泛化意味着什么以及可解释性 64:42 如何看待collective intelligence以及“用AI监督AI”? 69:33 如何看待大语言模型的公平性与偏见问题? 72:41 大语言模型alignment的主要方法与发展趋势 78:24 人类或机器人的行为与价值观如何被评估?如何获得高质量人类反馈数据? 85:12 NLP系统当中的human factors 92:29 Gemini和Gemma等LLM在对齐和安全上特别的主张或成果 展望一下 97:44 怎样看待AGI?未来的研究方向/工作聚焦点会有变化和调整吗? 【制作团队】 主播: 刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。 徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,Meta机器学习部门实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型之间的共通之处。 制作人: 黄芊雅:复旦大学新闻学院在读 邱鑫:上海交通大学安泰经管学院在读 王翌婷:复旦大学计算机学院在读 【参考文章】 OpenAI: openai.com OpenAI: The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions Anthropic: www.anthropic.com 【音乐版权】 * Time by Pold soundcloud.com|Free Download / Stream: tinyurl.com|Promoted by Audio Library tinyurl.com * Look At The Clouds by Declan DP|Free Download / Stream: bit.ly|Promoted by Audio Library bit.ly
- S1E04 | 人机交互视角怎样看待GPT与AI Agent的未来
【关于播客】 欢迎大家一同加入出埃及记的旅程!关注底层逻辑,剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目,我们会邀请全球顶尖院校的博士生或初创公司的创始人,一起聊聊人工智能等计算机科学或其他交叉领域的最新动态,分享他们的研究工作和相关洞察。 欢迎大家订阅收听,和关注我们的同名微信公众号,追踪最新内容。 【关于本期】 AI领域近期最热的新闻之一莫过于5月中OpenAI发布GPT-4o和6月11日WWDC上苹果发布覆盖全产品线的生成式AI技术。相较于之前版本,最大的升级在于人机交互体验的改善。GPT-4o的特点可以被总结成三个方面:一是全模态交互,意味着它能够无缝处理文字、语音、图片和视频等多种输入模态,并能够灵活地输出各种模态的结果;二是实时响应,减弱甚至消除了以往大模型的延迟问题,实现了真人对话般的即时互动;三是情感识别与表达,不仅能够理解用户的情绪,甚至能够捕捉到用户的呼吸节奏,其输出内容的语气和情感表达也几乎与真人无异。GPT-4o设计的核心目的就是为了更接近人机交互的终极目标,使之成为像是在和真人交互一样的AI Agent。 在GPT-4o发布前一周多,我们正巧与两位HCI方向的博士生朋友,交流HCI领域的研究工作者是怎样看待ChatGPT和Agent的产品形态和未来方向,当前的AI与人类交互有哪些问题,以及Agent的未来会是怎样? 【嘉宾介绍】 * 刘星宇:加州大学洛杉矶分校HCI lab博士生,师从Xiang Anthony Chen。本科毕业于卡耐基梅隆大学统计、机器学习与HCI专业。研究方向曾经关注无障碍设计,近期聚焦人与包括chatbot/agent在内的人工智能的交互。曾获亚马逊博士奖学金、ACM UIST 最佳论文奖、两项ACM CHI最佳论文荣誉奖、ED Rice 杰出硕士生奖和加州大学洛杉矶分校杰出硕士论文研究奖。曾在Meta Reality Lab、Google和Snap Research进行研究实习。 * 马家驹:斯坦福大学计算机科学系博士生,师从Maneesh Agrawala教授。本科毕业于布朗大学计算机科学与罗德岛设计学院工业设计双学位。研究方向聚焦于构建全过程协助用户的创意支持工具。研究工作得到了布朗媒体创新研究所和斯坦福大学研究生奖学金的支持。曾在 Facebook AI、LinkedIn、Deeplearning.ai 和 Learnable.ai做产品设计实习,以及Adobe Research做研究实习。 【开降落伞】 HCI领域介绍 03:22 HCI领域是在做什么?当下有哪些比较重要的问题? Human-AI Interaction AI模型的难用之处 06:25 ChatGPT难用之处 08:21 AI模型“黑箱”的本质以及可解释性 12:05 ChatGPT的输入和输出存在限制 “难用”的解决方案 14:46 如何解决ChatGPT难用的地方? 17:19 Human-AI Interaction的特殊使用场景 18:22 AR/VR与LLM结合 22:00 以Copilot为代表的定制化模型的交互易用性 23:54 人类加入大模型的interaction loop 26:42 类比自动驾驶,人参与进interaction Loop是为了提升整体的效率或体验感,还是当下技术不够成熟的妥协? 29:28 人类和机器共同协作(Mixed-initiative Interaction) LLM Agent 40:52 Agent和LLM Agent 42:44 关于用户交互的辩论:是agent还是直接操控(direct manipulation)? 51:28 人类如何和LLM agent交互?如何创造一个personalized agent? 展望 54:36 未来的研究方向会怎样聚焦或调整吗?Multi-agent和HCI的关联是什么样的?agent-extreme的尽头是否是AGI替代人类? 【制作团队】 主理人: * 刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。 * 徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,incoming Meta 机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型之间的共通之处。 制作: * 黄芊雅:复旦大学新闻学院在读 * 王翌婷:复旦大学计算机科学技术学院在读 【音乐版权】 * Time by Pold soundcloud.com|Free Download / Stream: tinyurl.com|Promoted by Audio Library tinyurl.com * Look At The Clouds by Declan DP|Free Download / Stream: bit.ly|Promoted by Audio Library bit.ly
- S1E03 | 英伟达股价遥遥领先,AI算力供应还有新蛋糕吗
【关于播客】 欢迎大家一同加入出埃及记的旅程!关注底层逻辑,剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目,我们会邀请全球顶尖院校的博士生或技术背景的初创公司创始人,一起聊聊人工智能等计算机科学或其他交叉领域的最新动态,分享他们的研究工作和相关洞察。 即日起,我们的长视频版本将逐步上线于Youtube和Bilibili,观众老爷们可以更便捷地在长视频中观看带字幕的视频,也便于大家理解对谈中涉及的任何专业语汇。与此同时,我们也将在小红书和视频号发布一些视频切片,呈现采访过程中的灵感时刻。 当然,欢迎关注我们的微信公众号加听友群,跟进更多动态。 【关于本期】 在Nvidia的Q1财报发布后,Nvidia的股价首次飙升至1000美元以上。在AI的算法不断推陈出新的当下,大模型对于算力的需求暴涨令人瞩目,这其中隐藏了哪些机会?本期播客我们邀请三位行业内部人士,从不同的角度切入,共同探讨如何在AI的热潮背景下,从计算效率的角度寻找突破。我们将与教授学者、大厂资深软件研究科学家以及计算机硬件研究博士对话,探究在高昂的算力成本和日益严峻的能源问题面前,如何通过创新思路,例如专用小模型和定制化芯片技术,来实现更高效环保的发展路线。 【嘉宾介绍】 * 周佩佩(LinkedIn: zhoupeipei):美国匹兹堡大学电子与计算机工程系助理教授,博导,博士毕业于UCLA计算机系。研究方向包括:芯片电子自动化设计,自动代码生成,编译器优化等。获得2019年计算机体系结构顶刊IEEE集成电路和系统的计算机辅助设计TCAD最佳论文奖(<2‰),2019年UCLA计算机系杰出科研奖,2018年ACM/IEEE计算机辅助设计国际会议ICCAD最佳论文提名,2018年IEEE国际系统和软件性能国际会议ISPASS最佳论文提名。 * 刘泽春(X: @zechunliu):Meta Reality Labs 高级研究科学家,博士毕业于HKUST计算机系,师从Kwang-Ting Tim CHENG,卡耐基梅隆大学访问学者,师从Marios Savvides与Eric Xing。她的研究方向聚焦端测模型压缩和加速 ,google scholar论文引用量3900。 她的近期研究工作包括 LLM-QAT、LLM-FP4 和 MobileLLM 等,为在移动端设备上部署高效的大型语言模型提供了可行解。 * 樊子辰:密歇根大学电子工程系博士生,师从Dennis Sylvester教授与David Blaauw教授。本科毕业于清华大学电子系。研究方向包括:高能效神经网络加速器设计, 低功耗集成电路设计, 神经网络模型量化等。他近期主要研究工作包括移动端多任务自然语言和图像处理加速系统设计。他曾在ISSCC,VLSI,ISCA,JSSC等国际顶级会议与期刊发表文章十余篇,曾获得2023年IEEE国际专用系统、架构与处理器会议ASAP最佳论文奖。 【开降落伞】 背景科普 05:28 在大模型(LLM)的计算范式中计算效率的重要性 09:07 小公司预训练(Pretrain)大模型的可行性 10:23 训练和推理大模型对硬件的真实需求 软件角度的LLM等人工智能算法加速 11:50 大语言模型的软件层面计算效率优化的新技术 15:13 Scaling law & Scale up and Scale down 18:23 LLM的高效微调(finetune) 20:45 LLM的高效推理(inference) 21:54 小模型和大模型的区别 23:29 小模型的独特架构设计 25:03 LLM架构设计的软硬件结合方法: FlashAttention 27:54 TensorRT和CUDA 30:20 英伟达(Nvidia)的技术壁垒 硬件角度的LLM等人工智能算法加速 31:30 大模型中的长序列输入处理的挑战和解决方法 34:14 传统计算架构中的CPU/GPU/TPU 41:05 近内存计算(Near-Storage Computing)与LLM的适配 43:54 定制化硬件公司Groq和Cerebras的发展和愿景 50:00 摩尔定律缩放减缓对算力提升的影响 51:50 数据中心的发展趋势和优化技术 57:12 为什么芯片的设计周期这么长? 1:02:43 芯粒(Chiplet)技术及其前景 展望未来 1:08:34 对新架构、新软硬件结合方式和加速方式的看法 1:14:34 对AGI到来的看法 【关于主播】 * 刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。 * 徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,incoming Meta机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型之间的共通之处。 【音乐版权】 * Time by Pold soundcloud.com|Free Download / Stream: tinyurl.com|Promoted by Audio Library tinyurl.com * Look At The Clouds by Declan DP|Free Download / Stream: bit.ly|Promoted by Audio Library bit.ly
- S1E02|Figure 01背后的具身智能:解析VLM、基础模型、硬件与交互
【关于播客】 欢迎大家一同加入出埃及记的旅程!关注底层逻辑,剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目,我们会邀请全球顶尖院校的博士生或初创公司的创始人,一起聊聊人工智能等计算机科学或其他交叉领域的最新动态,分享他们的研究工作和相关洞察。 欢迎大家订阅收听,和关注我们的同名微信公众号。;p 【关于本期】 2024年3月13日,Figure AI与Open AI合作推出的Figure 01人形机器人视频在社交媒体上热传。这段长达2分35秒的视频展示了机器人惊人的理解、判断、行动和自我评估能力。对比他们今年2月发布的机器人双腿行走和拿起塑料箱的视频,最新视频展示的人形机器人具有视觉能力并能表述所见画面,并采用端到端的神经网络,在接受人类的提问后,可以在“思索”2~3秒顺畅作答,手部动作的速度则接近人类。从OpenAI 宣布介入与之合作,到今天它们共同推出一个能够自主对话和决策的机器人,只有13天。 在人工智能领域,国际上已有共识,即下一个重要挑战,就是实现具身智能(Embodied Intelligence),即能理解、推理并与物理世界互动的智能系统。全球范围内AI领域的巨头和风投机构的火力在今年也从软件卷入了门槛更高回报周期更长的硬件。我们也在这一期请到了机器人相关领域的三位博士生小伙伴,来跟我们分享机器人背后的视觉语言模型(VLM)、机器人领域的基础模型(foundation model)以及与之对应的精密的人形机器人都是什么?机器人与人的交互和“世界模型”又是怎样的?机器人精密控制的硬件是如何实现的? 【嘉宾介绍】 * 蔡易林(推特:@Yilin_Cai98):佐治亚理工大学机器人学博士生,本硕毕业于上海交通大学和卡内基梅隆大学机器人研究所。研究聚焦于机器人灵巧操作、软体机器人和医疗机器人。 * 江振宇(推特:@SteveTod1998):德州大学奥斯汀分校计算机系博士生,师从 Yuke Zhu。本科毕业于清华大学电子系。研究聚焦于机器人视觉和机器人学习。目前在英伟达通用具身智能研究部门实习,参与英伟达人形机器人基础模型 GROOT 研发。 * 朱昊(推特:@_Hao_Zhu):卡内基梅隆大学语言技术研究所博士生,师从Graham Neubig 和 Yonatan Bisk。本科毕业于清华大学计算机系。研究聚焦于提升AI和人类在现实世界中的合作能力。 【开降落伞】 背景科普 07:25 具身智能和非具身智能的区别? 08:54 现在AI当中的主动交互是什么?具体是如何实现和环境之间交互的? 09:51 机器人的发展有哪些阶段? 11:14 机器人有哪些未来形态或者应用?除了机器人之外,具身智能还有哪些应用? 15:06 具身智能的未来通向何方? 视觉语言模型与基础模型 18:33 如何让机器人可以理解图像和文字? 21:09 什么是视觉语言模型的基石? 22:33 怎样看待Figure 01背后的VLM? 23:30 3D视觉近期在做什么? 27:09 为什么需要人形机器人?人形机器人和其他的embodiment之间存在一些差异吗?这些差异是什么? 32:07 机器人策略的最终形态会是怎样? 33:00 机器人的基础模型的输入输出模态是什么样的? 34:34 机器人基础模型的数据通过什么方式收集?一个具体的数据飞轮可能是什么样的? 模拟交互环境、人机交互与世界模型 37:36 模拟交互环境的优点? 41:13 现有交互环境的类型和评价体系? 45:59 在机器人和人的交互当中,衡量方式是什么,难点又是什么? 49:12 世界模型是什么? 51:00 世界模型可以怎样帮助具身智能? 机器人硬件 52:14 人形机器人的结构设计、硬件是怎样的?应该包含哪些模块?每个模块的特点,设计困难和对应的解决方案都有哪些? 1:00:51 其他机器人形态的传统控制方法有哪些?Embodied AI/是如何参与到对于其他机器人形态的控制当中的呢? 1:04:34 传统机器人的控制架构在做什么? 1:08:04 大家接下来的研究方向?怎样看待具身智能和AGI? 【关于主播】 * 刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。 * 徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,incoming Meta 机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型之间的共通之处。 【音乐版权】 * Time by Pold soundcloud.com|Free Download / Stream: tinyurl.com|Promoted by Audio Library tinyurl.com * Look At The Clouds by Declan DP|Free Download / Stream: bit.ly|Promoted by Audio Library bit.ly
- S1E01|Claude Grok大模型卷生卷死,AI安全性与计算效率路在何方
【关于播客】 欢迎大家一同加入出埃及记的旅程!关注底层逻辑,剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目,我们会邀请全球顶尖院校的博士生或初创公司的创始人,一起聊聊人工智能等计算机科学或其他交叉领域的最新动态,分享他们的研究工作和相关洞察。 欢迎大家订阅收听,和关注我们的同名微信公众号,追踪最新内容。;p 【关于本期】 大模型神仙打架卷生卷死,以至于本期播客从我们筹备到录制到剪辑的两三周内前缀都改了三次 XD。3月初Open AI被马斯克起诉,然后Claude 3横空出世横扫排行榜,接着上周(3月17日)xAI宣布Grok-1开源,而前两天(3月27日)Amazon大手一挥又给Claude3背后的Anthropic输血27.5亿美元巨款。热点永远不缺,而热点背后的技术逻辑总是一脉相承,比新动态更值得花时间去研究。 我们怀着科学吃瓜,追本溯源的态度,请到了麻省理工学院的肖光烜和卡耐基梅隆大学的周旭辉两位PhD同学,来跟大家分享学界是怎样看待以Claude 3和GPT4等LLM为代表的自然语言处理研究?在当前大语言模型当中,信息的安全和价值观的一致是如何被保证的?大语言模型的提效是怎样被实现的?现在的大模型有哪些局限性?另外,他们是如何根据自己的研究专长,评价目前的进展及预测未来的趋势的? 【嘉宾介绍】 * 肖光烜:麻省理工EECS博士生,师从韩松。本科毕业于清华大学计算机系。研究聚焦于现实世界机器学习应用相关的高效算法和系统,特别是基础模型。曾在Meta AI实习。 * 周旭辉:卡内基梅隆大学语言技术研究所博士生,师从Maarten Sap。本硕毕业于南京大学计算机系与华盛顿大学计算语言系。研究聚焦于社交智能人类语言技术及自然语言处理。曾在苹果机器智能部门实习。 【开降落伞】 LLM的评价指标 04:06 NLP(自然语言处理)领域有哪些基准来评价LLM性能? 19:05 为什么会存在context window(上下文窗口)? AI 安全性(Safety) 38:32 什么是 red-teaming? 为什么Open AI以及Anthropic都在重视这个问题? 42:32 Safety相关的举措会影响大模型推理速度吗? 43:27 RLHF(基于人类反馈的强化学习,reinforcement learning from human feedback),作为一种alignment的手段,在大模型训练中扮演了什么至关重要的角色? 47:19 在使用和训练一个大模型的时候,信息安全性如何被保证?预训练模型例如Llama/GPT4可以在多大程度上保护隐私? 50:55 为什么会有AI幻觉? 53:32 除了AI的幻觉(hallucination)之外,还有与之关联欺骗(deception)和操纵(manipulation)。它们分别是什么以及怎么解决? AI 计算效率(Efficiency) 61:59 部署LLM时,有哪些效率指标值得主要关注?它们有哪些挑战?GPT4/Azure/Claude3在这些指标上的表现如何? 69:45 实际部署LLM的场景有哪些?端(edge)和云(cloud)对efficiency的侧重点有何不同? 73:29 速度和性能之间的需要做权衡的根本原因是什么? 77:17 提升LLM 计算效率的方法有哪些? 86:30 为什么当下decoder-only的架构是主流?看似更合理的encoder-decoder架构的T5(2019) 为什么没有被大规模采用? 92:02 从性能角度考虑,token数量的提升会带来怎样的后果? 展望一下 94:56 有效加速vs超级对齐,怎么看待AGI,两位未来研究方向的侧重点? 【关于主播】 * 刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。 * 徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,incoming Meta 机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型之间的共通之处。 【音乐版权】 * Time by Pold soundcloud.com|Free Download / Stream: tinyurl.com|Promoted by Audio Library tinyurl.com * Look At The Clouds by Declan DP|Free Download / Stream: bit.ly|Promoted by Audio Library bit.ly
- S1E0 Trailer | 经历过,所以更确信
【关于播客】 欢迎大家一同加入出埃及记的旅程!关注底层逻辑,剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目,我们会邀请全球顶尖院校的博士生或初创公司的创始人,一起聊聊人工智能等计算机科学或其他交叉领域的最新动态,分享他们的研究工作和相关洞察。 欢迎大家订阅收听,和关注我们的同名微信公众号,追踪最新内容。;p 【关于主播】 刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。 徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,incoming Meta 机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型之间的共通之处。 【开降落伞】 00:22 我们从哪里来 04:25 我们要往哪里去 【版权信息】 4U - Mehul Choudhary soundcloud.com Music promoted by Audio Library bit.ly