S1E05 | Gemini与Chatbot Arena团队科学家：全网最强解读AI安全与对齐 - 出埃及记Exodus

【关于播客】

欢迎大家一同加入出埃及记的旅程！关注底层逻辑，剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目，我们会邀请全球顶尖院校的博士生或初创公司的创始人，一起聊聊人工智能等计算机科学或其他交叉领域的最新动态，分享他们的研究工作和相关洞察。

欢迎大家订阅收听，和关注我们的同名微信公众号，追踪最新内容。;p

【关于本期】

今年5月，Ilya为代表的Open AI超级对齐团队大面积离职；6月19日，在离开Open AI一个月后，Ilya拉上了Y Combinator合伙人和前open AI技术专家成立了SSI（safe super intelligence），旨在创建安全而强大的人工智能系统。AI技术与产品发展狂奔的另一面，是越来越多的有关人工智能是否会给人类社会带来风险和利益侵害的忧虑。

除了业界许多产品项和工程项的人大多持有有效加速的观点外，学界的观点像在打擂台一样构成了媒介议程。图灵奖AI三巨头之二的Bengio、Hinton以及我们熟知的姚期智等顶级科学家联名在Science刊登文章，警示无节制发展AI的风险；而图灵AI三巨头的另一位Yann LeCun、斯坦福的吴恩达教授以及李飞飞和John Etchemendy等学者则对人类控制AI的能力表示乐观。

本期我们很荣幸地请到Google DeepMind团队的刘睿博博士，和UC Berkeley PHD毕业的朱邦华博士，来跟我们从业界和学界的视角展开聊聊AI安全与AI对齐。本期播客将为大家揭露GPT4o不为人知的内幕，并希望从专业视角带来“超级对齐”的深度解读。

【嘉宾介绍】

刘睿博：Google DeepMind高级研究科学家。参与开发了Google多模态大语言模型Gemini 1.0/1.5和轻量级生成式AI开放模型Gemma。目前研究方向聚焦于人工智能对齐，曾获AAAI 2021年杰出论文奖。博士毕业于达特茅斯学院。

朱邦华：生成式AI网络安全初创公司Nexusflow联合创始人，即将作为助理教授入职华盛顿大学。参与开发了Starling-7B、NexusRaven-13B、Chatbot Arena以及Arena Hard Auto pipeline。研究方向包括基础模型、AI交互和强化学习，博士毕业于UC Berkeley。

【开降落伞】

概念科普

04:53 AI安全性的意见光谱

09:47 AI对齐(alignment)与AI安全(security)的关系

14:26 什么是“超级对齐”(super-alignment)？

AI alignment的发展预测

19:11 AI对齐的常见问题和发展路径

24:02 为什么要利用合成数据(Synthetic data)训练模型?

30:20 Chatbot Arena中，GPT会更偏好利用GPT合成数据训练出的模型吗？

31:50 学界与业界的AI alignment研究的区别

39:06 未来3-5年AI监管在研究和政策层面的预测

42:15 近期有哪些有趣的AI alignment work？

48:03 如何对人类的特征进行定量评估? 什么是好的评估(evaluation)?

52:28 GPT4-o后，对大语言模型有什么新期待？

安全性和评估方法

58:21 如何对不同大模型的安全性和preference进行评估？

61:23 从弱到强的泛化意味着什么以及可解释性

64:42 如何看待collective intelligence以及“用AI监督AI”？

69:33 如何看待大语言模型的公平性与偏见问题？

72:41 大语言模型alignment的主要方法与发展趋势

78:24 人类或机器人的行为与价值观如何被评估？如何获得高质量人类反馈数据？

85:12 NLP系统当中的human factors

92:29 Gemini和Gemma等LLM在对齐和安全上特别的主张或成果

展望一下

97:44 怎样看待AGI？未来的研究方向/工作聚焦点会有变化和调整吗？

【制作团队】

主播：

刘杰尼：社科传媒本计算机研，Ex高盛TMT投行吗喽，接触过各种行业和国内外项目，混过大厂小厂和创业公司，并有幸（有可能是不幸）经历中国上一个TMT时代的完整兴衰，试图更好地活在科技与人文的交叉点。

徐胖虎：电子工程本，计算机硕博，现加州大学某海景分校论文力工，Meta机器学习部门实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算，试图理解生物人脑和暴力美学的大模型之间的共通之处。

制作人：

黄芊雅：复旦大学新闻学院在读

邱鑫：上海交通大学安泰经管学院在读

王翌婷：复旦大学计算机学院在读

【参考文章】

OpenAI: openai.com

OpenAI: The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

Anthropic: www.anthropic.com

【音乐版权】

Time by Pold soundcloud.com｜Free Download / Stream: tinyurl.com｜Promoted by Audio Library tinyurl.com

Look At The Clouds by Declan DP｜Free Download / Stream: bit.ly｜Promoted by Audio Library bit.ly