【关于播客】
欢迎大家一同加入出埃及记的旅程!关注底层逻辑,剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目,我们会邀请全球顶尖院校的博士生或初创公司的创始人,一起聊聊人工智能等计算机科学或其他交叉领域的最新动态,分享他们的研究工作和相关洞察。
欢迎大家订阅收听,和关注我们的同名微信公众号,追踪最新内容。;p
【关于本期】
大模型神仙打架卷生卷死,以至于本期播客从我们筹备到录制到剪辑的两三周内前缀都改了三次 XD。3月初Open AI被马斯克起诉,然后Claude 3横空出世横扫排行榜,接着上周(3月17日)xAI宣布Grok-1开源,而前两天(3月27日)Amazon大手一挥又给Claude3背后的Anthropic输血27.5亿美元巨款。热点永远不缺,而热点背后的技术逻辑总是一脉相承,比新动态更值得花时间去研究。
我们怀着科学吃瓜,追本溯源的态度,请到了麻省理工学院的肖光烜和卡耐基梅隆大学的周旭辉两位PhD同学,来跟大家分享学界是怎样看待以Claude 3和GPT4等LLM为代表的自然语言处理研究?在当前大语言模型当中,信息的安全和价值观的一致是如何被保证的?大语言模型的提效是怎样被实现的?现在的大模型有哪些局限性?另外,他们是如何根据自己的研究专长,评价目前的进展及预测未来的趋势的?
【嘉宾介绍】
- 肖光烜:麻省理工EECS博士生,师从韩松。本科毕业于清华大学计算机系。研究聚焦于现实世界机器学习应用相关的高效算法和系统,特别是基础模型。曾在Meta AI实习。
- 周旭辉:卡内基梅隆大学语言技术研究所博士生,师从Maarten Sap。本硕毕业于南京大学计算机系与华盛顿大学计算语言系。研究聚焦于社交智能人类语言技术及自然语言处理。曾在苹果机器智能部门实习。
【开降落伞】
LLM的评价指标
04:06 NLP(自然语言处理)领域有哪些基准来评价LLM性能?
19:05 为什么会存在context window(上下文窗口)?
AI 安全性(Safety)
38:32 什么是 red-teaming? 为什么Open AI以及Anthropic都在重视这个问题?
42:32 Safety相关的举措会影响大模型推理速度吗?
43:27 RLHF(基于人类反馈的强化学习,reinforcement learning from human feedback),作为一种alignment的手段,在大模型训练中扮演了什么至关重要的角色?
47:19 在使用和训练一个大模型的时候,信息安全性如何被保证?预训练模型例如Llama/GPT4可以在多大程度上保护隐私?
50:55 为什么会有AI幻觉?
53:32 除了AI的幻觉(hallucination)之外,还有与之关联欺骗(deception)和操纵(manipulation)。它们分别是什么以及怎么解决?
AI 计算效率(Efficiency)
61:59 部署LLM时,有哪些效率指标值得主要关注?它们有哪些挑战?GPT4/Azure/Claude3在这些指标上的表现如何?
69:45 实际部署LLM的场景有哪些?端(edge)和云(cloud)对efficiency的侧重点有何不同?
73:29 速度和性能之间的需要做权衡的根本原因是什么?
77:17 提升LLM 计算效率的方法有哪些?
86:30 为什么当下decoder-only的架构是主流?看似更合理的encoder-decoder架构的T5(2019) 为什么没有被大规模采用?
92:02 从性能角度考虑,token数量的提升会带来怎样的后果?
展望一下
94:56 有效加速vs超级对齐,怎么看待AGI,两位未来研究方向的侧重点?
【关于主播】
- 刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。
- 徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,incoming Meta 机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型之间的共通之处。
【音乐版权】
- Time by Pold soundcloud.com|Free Download / Stream: tinyurl.com|Promoted by Audio Library tinyurl.com
- Look At The Clouds by Declan DP|Free Download / Stream: bit.ly|Promoted by Audio Library bit.ly