EP 62. Google Deepmind 与LLM研究员深度解读OpenAI o1 及LLM+强化学习新范式

EP 62. Google Deepmind 与LLM研究员深度解读OpenAI o1 及LLM+强化学习新范式

163分钟 ·
播放数18479
·
评论数68

你们期待已久的最硬核干货的OpenAI o1模型技术解读来了!上个月最值得关注的事件,或许就是9月12号OpenAI o1模型的发布了,大家对这个新的模型翘首以待许久,OpenAI CEO Sam Altman 也称之为新范式的开始。经过强化学习(Reinforcement Learning)并结合Chain of thoughts 思维链技术,o1在处理物理、数学、编程等复杂问题时,甚至和该领域的博士生水平不相上下。OnBoard! 的嘉宾,不会让你失望!

Hello World, who is OnBoard!?

强化学习如何给大语言模型带来新的逻辑推理能力这?这种能力的来源、实现方式和未来潜力又是怎样的?o1带来的“新范式”会对行业有怎样的影响?

这次的嘉宾都是有实际训练LLM经验的一线研究员。这场三个多小时的解读,相信会给你不一样的视角!其中两位就来自 RL 绝对高地的 Google, 也是AlphaGo, alphafold, alphageometry 等一系列世界领先的RL工作的发源地。他们都分别在RL和MCTS(蒙特卡洛树搜索)领域有长期的研究和实践经验。另一位嘉宾则是在互联网大厂从LLM预训练到RLHF都有一手经验。中美视角的综合,碰撞出很多火花。这个嘉宾阵容对o1的猜想和解读,相信会让你直呼过瘾。

这次的探讨会涉及很多技术细节,嘉宾长期的海外工作学习,难免穿插英文,不接受抱怨。Enjoy!

PS 本期录制时间是2024年9月27日

嘉宾介绍

Kimi Kong,Research engineer @Google deepmind, 他在 Stanford 读书期间就接触强化学习,从机器人到现在的大语言模型,对强化学习的理论和使用的沿革有非常系统的理解。

Eric Li (返场嘉宾!),Research scientist @Google Cloud, PhD @Caltech。大家都猜测 o1 将蒙特卡洛树搜索 (MCTS) 应用到了LLM,是提升逻辑推理能力的重要方式之一。Eric 就发表了多篇LLM和MCTS结合的论文,绝对的专家。

苏辉,前微信AI研究员,现国内一线互联网公司大模型负责人。

Cohost: Cage,原字节的数据科学家,现拾像科技研究员,公众号“海外独角兽”撰稿人

OnBoard! 主持:Monica:美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学

我们都聊了什么

02:36 嘉宾自我介绍,MCTS 科普,为什么对LLM+RL新范式很重要; Cursor 为何值得关注,Physics in LLM from Allen Zhu, 语言对推理能力的价值

20:25 对o1发布有什么印象深刻的地方,数据的重要性和难点

40:16 如何拆解o1能力提升的来源?如何重新训练一个o1?

56:10 为什么复杂的o1 却解决不好简单的数学或常识问题?

60:16 o1 用于 tool use 的任务,可能有什么挑战? 对agent 产品有什么影响?

66:46 如何看待agent 数据集难收集的问题?

68:38 什么是 Chain of Thoughts (CoT)和MCTS? 对o1的作用跟以前CoT做法有什么不一样?MCTS 在LLM推理中可能有什么作用?

83:07 什么是强化学习(RL)?在LLM中应用RL是怎样的演进过程?

89:35 RL和self play 其他领域,比如机器人,有怎样的应用?跟在LLM的应用有何异同?

93:45 RL, CoT, self-play 之间是怎样的关系? 真的可以无上限提升LLM推理能力吗?

106:56 o1 有可能是单一模型还是 multi-agent system?

119:11 LLM和游戏有什么相互影响?为什么玩游戏的能力对LLM 很值得关注?游戏数据对LLM训练有什么价值?

126:54 Google 很早就开始 RL 相关研究,为什么 OpenAI o1先出来了?

133:16 o1 新范式的出现,对于追赶者来说意味着什么?更容易还是更难?

141:43 要追赶 OpenAI o1, 最容易被低估和高估的是什么?

143:48 对未来的展望:未来1年和3年,预期AI领域会发生什么?

我们推荐的内容

参考文章

欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!

M小姐研习录 (ID: MissMStudy)

欢迎在评论区留下你的思考,与听友们互动。喜欢 OnBoard! 的话,也可以点击打赏,请我们喝一杯咖啡!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。

最后!快来加入Onboard!听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加任意一位小助手微信,onboard666, 或者 Nine_tunes,小助手会拉你进群。期待你来!

展开Show Notes
图乐
图乐
2024.10.12
中英夹杂到底怎么捅到你们哪根大动脉了。。。。在国外生活过就很容易这样阿。。。。。人家大牛愿意来分享还得为你改习惯嚒 不爱听别听谢谢。
Jane_iwb6:听了不舒服还不能说了? 这是中文播客吗?目标听众是中文听众吗?你这个连不同声音都容不下的范儿可是typical呢! Ms. 毛细血管
ll_3ZN1:我希望是全英文聊这个话题, 夹着中文太奇怪了
7条回复
嘉宾的mic太差了
richardsyw
richardsyw
2024.10.22
我觉得不是中英文的问题 单纯就是这个男的太装了 感觉就像跟油腻男约会一样(我是男的
xiaowens06
xiaowens06
2024.10.13
收音是不是有点问题,有点轻
Jane_iwb6
Jane_iwb6
2024.10.14
我也长期在英文环境工作,但是如果我明确知道我今天的听众以中文听众为主,我会注意的。能够理解作为一个播客为了嘉宾感受删除一些过激言论,但是某位"大动脉"小姐那么激烈冒犯的言论也留着,是不是有点"谄媚"之嫌了。
CppLion:混一些词很正常,混句子感觉有点搞笑了
Jane_iwb6:对的,以他的智商不可能反应不过来,也正是如此让人特别不舒服。
听了敬告我还想能有多夹杂 听了发现 也太夹杂了吧😂 节目选择在国内上线 这也不愿意考虑也是多少有点傲慢了
瓦栗:研究表明,bilingual可以提高人类智商
乐观学研究员:研究表明 在合适的场合使用合适语言表达的人类 智商和情商都更高
YihangWang
YihangWang
2024.10.15
听内容听得如此如醉,不看评论根本没留意他们说的中文还是英文。讲真,中英夹杂听感上真的有那么大的difference么?按理说这节目的target audience都是bilingual,应该把精力都花在hardcore内容本身,而不是讨论这些有的没的
UFO_inOD
UFO_inOD
2024.10.15
怎么老听到气泡音,听着有点难受
对课题太有兴趣了,但是这个音质,又这么多的专业名词,根本听不清
ll_3ZN1
ll_3ZN1
2024.10.15
忍不住再吐槽一下, 作为一个ai researcher, 请小心"比人类"这种说法, 就某一个特定问题而言, 目前来说最多只能是针对某类问题利用已知人类中最好的结果来做比较或者近似,不存在一个在人类之上的更好的结果。 否则我会怀疑这个researcher的真实水平,有没有真正深入思考目前最新进展背后的history, 有没有original thought。
Keenan
Keenan
2024.10.14
感谢嘉宾们给了我很多启发,支持主持人,支持嘉宾,语言只是一种形式,内容才是最重要的。嘉宾们愿意分享idea,我已经很感谢了,不可能再去苛求什么纯中纯英。
姥姥王
姥姥王
2024.10.11
以下内容来自豆包:
EP 62. Google Deepmind与LLM研究员深度解读OpenAI o1及LLM +强化学习新范式

一、播客基本信息

- 发布时间:2024 - 10 - 11 07:58:53
- 录制时间:2024年9月27日
- 嘉宾阵容
- Kimi Kong:Google deepmind研究工程师,Stanford读书期间接触强化学习,对强化学习理论和使用沿革有系统理解。
- Eric Li:Google Cloud研究科学家,Caltech博士,发表多篇LLM和MCTS结合的论文。
- 苏辉:前微信AI研究员,现国内一线互联网公司大模型负责人。
- Cage Zhong:原字节的数据科学家,现拾像科技研究员,公众号“海外独角兽”撰稿人。
- Monica Xie:美元VC投资人,前AWS硅谷团队 + AI创业公司打工人,公众号M小姐研习录主理人。

二、主要内容

1. 开场介绍
- 9月12号OpenAI o1模型发布,OpenAI CEO称其为新范式开始,结合强化学习和思维链技术,处理复杂问题能力强。
- 嘉宾来自Google Deepmind、互联网大厂等,有中美视角,将深度解读o1及相关技术。
2. 嘉宾自我介绍及相关科普(02:36
- 嘉宾自我介绍。
- 介绍MCTS,阐述其对LLM + RL新范式的重要性。
- 提及Cursor为何值得关注,探讨语言对推理能力的价值(Physics in LLM from Allen Zhu)。
3. 对o1发布的印象及数据相关(20:25
- 分享对o1发布印象深刻之处。
- 讨论数据的重要性和难点。
4. o1能力提升拆解及重新训练(40:16
- 如何拆解o1能力提升的来源。
- 探讨如何重新训练一个o1。
5. o1的问题探讨(56:10 - 68:38
- 为什么复杂的o1却解决不好简单的数学或常识问题。
- o1用于tool use任务的挑战及对agent产品的影响。
- 如何看待agent数据集难收集的问题。
- 介绍Chain of Thoughts (CoT)和MCTS,对比其对o1的作用与以前CoT做法的不同,阐述MCTS在LLM推理中的作用。
6. 强化学习相关(83:07 - 93:45
- 解释强化学习(RL)概念,介绍其在LLM中的应用演进过程。
- 探讨RL在机器人等其他领域的应用,与在LLM应用的异同。
- 分析RL、CoT、self - play之间的关系,讨论是否真的可以无上限提升LLM推理能力。
7. o1模型结构及其他影响(106:56 - 126:54
- 探讨o1是单一模型还是multi - agent system。
- 分析LLM和游戏的相互影响,阐述玩游戏的能力对LLM的重要性以及游戏数据对LLM训练的价值。
- 解释Google很早就开始RL相关研究,为何OpenAI o1先出来。
8. 追赶o1相关(133:16 - 141:43
- o1新范式出现对追赶者的影响,是更容易还是更难。
- 分析追赶OpenAI o1最容易被低估和高估的方面。
9. 未来展望(143:48
- 对未来1年和3年AI领域的预期。

三、参考文章

- openai.com
- openai.com
- OpenAI’s Strawberry and inference scaling laws
- 海外独角兽:LLM的范式转移:RL带来新的Scaling Law
- 张俊林:Reverse - o1:OpenAI o1原理逆向工程图解

四、互动信息

- 欢迎关注M小姐的微信公众号(M小姐研习录,ID: MissMStudy)了解更多干货内容。
- 欢迎在评论区留言互动。
- 可点击打赏。
- 若用Apple Podcasts收听,请给五星好评。
- 可添加小助手微信(onboard666或Nine_tunes)进Onboard!听友群,参与线下活动等。
ccYever:请问有audio文件吗
还是把注意力集中在嘉宾输出的内容本身上比较重要
izx-copy
izx-copy
2024.10.11
2:15:02 关于训练阶段算力需求的变化,个人感觉原因应该是MCTS或者别的RL方法会做很多探索,放大了forward pass的次数,虽然RL本身对GPU不太友好,但如果仍然用同样的卡,总体算力要求还是更高了
Asherlee
Asherlee
2024.10.21
一开始确实跟不上某位嘉宾的英语语速,听了一段感觉还好。他有时候在英文后会给一段中文解释有时候不给。英文环境里待久了就会这样,尤其他在美国的业界和学术界,能理解吧
ll_3ZN1
ll_3ZN1
2024.10.15
瞎扯啥呢,现在最多是simulate reasoning, reasoning的机制以及定义都没有被研究清楚, altman那个阶段的定义纯粹是给外行人听的, 对继续融资可能有帮助。 嘉宾们是假定reasoning是什么已经搞清楚了还是怎么样?要是这个问题解决了,再加上self bootstrapping,那很可能下一步要讨论人工意识了 omg...
anonymousccc
anonymousccc
2024.10.15
不想听就别听,我也容易有这样的习惯,英语第一通用语言没毛病。
以前有人说不适,原因是觉得我装转手就拉黑他了。不同道不出现在一个空间就行
Atlas
Atlas
2024.10.14
19:30 失语症的患者也有逻辑推理能力 🤨
麦肤
麦肤
2024.10.14
天啊 Monica和我的声音好像啊还以为听到了我自己
不管是讲得好还是讲得烂 能不能多讨论讨论内容本身。评论区80%都在纠缠那些老掉牙的破事儿 真可悲
邪不压正:你这条评论不是也没有讨论内容本身吗?笑死