75. 和OpenAI前研究员吴翼解读o1:吹响了开挖第二座金矿的号角张小珺Jùn|商业访谈录

75. 和OpenAI前研究员吴翼解读o1:吹响了开挖第二座金矿的号角

74分钟 ·
播放数30167
·
评论数73

上集节目,广密在OpenAI o1问世之前,准确地预言了代号为“Strawberry”(草莓)的项目走向,以及它背后暗示的AGI范式已经转移,强化学习开启了新赛道。

这集节目录制在o1问世之后,我第一时间和边塞科技创始人、清华叉院信息研究院助理教授,同时也是前OpenAI研究员的吴翼聊了聊。他的研究方向正是强化学习。吴翼从技术视角全方位地解读了o1模型,并且分享了只有内部视角才能看见的真实的OpenAI。

我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)
  • 01:50 2019年在OpenAI做研究员
  • 03:04 那个年代所有PHD都希望去Google Brain和DeepMind
  • 03:46 OpenAI o1-preview初体验,很意外在用户使用端做这么大规模的推理
  • 07:20 pre-training(预训练)能挖的金矿越来越少,以强化学习为基础的post-training(后训练)是另一个大金矿,使迈向AGI的梯子多了几节
  • 09:00 o1-preview版本是GPT-3时刻,到没到ChatGPT时刻要看正式版本
  • 10:33 o1应该核心关注两个要点和背后的技术原理
  • 13:54 强化学习能否探索出Scaling Law有希望,但很复杂
  • 15:06 强化学习三要素:reward model+搜索和探索+prompt,每一块都很难
  • 16:42 2014年开始,UC Berkeley集体转向,押注强化学习
  • 19:36 RL算法的演进:从DQN(Deep Q-Network)到PPO(Proximal Policy Optimization)
  • 23:45 相信会带来通用能力而不是垂类能力提升
  • 24:47 长文本是实现AGI的第一步,推理能力是第二步
  • 29:57 通过o1-preview能反向复原哪些技术细节?
  • 34:00 reward model不太可能有一个单独的小组闭着眼睛训练,是耦合的
  • 38:30 思维链、安全、幻觉和算力
  • 41:25 为什么这么项目叫“Q*”?后来又叫“草莓”?梗都很有意思
  • 49:49 o1不代表垂直模型,依然相信会出现全能的大统一模型
  • 57:57 关于Scaling Law,2019年OpenAI内部讨论的细节
  • 01:00:26 2019年的OpenAI处于“闭着眼睛挖矿的状态”
  • 01:03:20 OpenAI当年如何做管理:搞大新闻、发博客,KPI是博客关注量
  • 01:10:28 2020年离开OpenAI后悔吗?

o1发布前的预言单集:AGI范式大转移:和广密预言草莓、OpenAI o1和self-play RL|全球大模型季报4

【更多信息】

联络我们:微博@张小珺-Benita,小红书@张小珺jùn

更多信息欢迎关注公众号:张小珺

展开Show Notes
OneTiger
OneTiger
2024.9.20
非常感谢嘉宾的分享,让我这个不太聪明给的非技术的男生听明白了,赞👍
insta:非技术的人看了这条评论有信心听下去了
JASting
JASting
2024.9.18
12:56 强化学习是新的复杂的范式,不是pretraining的大力出奇迹,是更复杂的框架和系统。需要解决 数据基础上,解决prompt问题(学什么题)、reward问题(做错了什么时候提示)、探索问题(做错了如何引导找到正确答案)。而且必须三个问题必须同时解决,才能做好强化学习,所以很难。
一只老男人:如果这三个问题都解决了,大模型的优势也就荡然无存
JASting
JASting
2024.9.18
07:24 O1的出现不是AGI路线的转弯,是进阶,Pretraining是一楼,Post training是二楼。AGI分pretraining和post training。Pre-training是有很多的数据,通过预训练的方式训练出很大的模型,涌现很强的知识和表现。Post training是可以做强化学习和搜索,产生合成数据,进而反哺Pre training,所以是进阶。
讲得好清楚,好开心,终于让我明白了模型和训练方法底层的区别,让我这个不太聪明的非技术的女生听明白,赞👍
霧雨:强调女生在这里的逻辑是?
HD243291g:
12条回复
子春之酒
子春之酒
2024.9.19
58:44 很喜欢这句话,“先摸一摸天花板吧”
击石
击石
2024.9.19
这期涨了好多知识
白七七
白七七
2024.9.23
之前在硅谷101听过一次吴翼老师的分享,很有收获,这次依然如此,感受到深度思考的魅力。听到结尾很是感慨,祝福吴翼老师自己的事做得踏实顺利。
音乐起的时候都给我听哭了,感谢清华x老师很真诚地分享!
1:10:59 直接说后悔也没啥
子春之酒
子春之酒
2024.9.19
所以当年的OpenAI就已经是个PR公司了啊
JASting
JASting
2024.9.18
11:59 模型的进步2个方面,1是能力提升,解决最难的题能力提升;2是让普通用户更容易使用模型(通过能做推理的方式让模型变得好用,摆脱prompt engineering)。有点像黄峥说的,拼多多的“ 消费升级不是让上海人去过巴黎人的生活,而是让安徽安庆的人有厨纸用,有好水果吃”。
JASting
JASting
2024.9.18
05:03 o1出乎意料的地方:在用户使用时的推理长度(几千个token长度)超过预期。推理长度代表,尝试了中间不同的思维链,进行了回溯、搜索、反思。这背后是对推理技术和推理资源能力的高要求,是完全不同的基建。
JASting
JASting
2024.9.19
1:04:02 18年-20年期间Open AI最大的KPI是博客关注量有多少。
null_RF1q
null_RF1q
2024.9.24
19:36 最资深的扛旗人很重要,能够找到正确的方向
面包君
面包君
2024.9.23
这期很干啊哈哈
Bloodluckson
Bloodluckson
2024.9.22
我不太明白,为什么LLM可以做math做得好(通过强化学习),但是一些实验中,我们发现LLM难以真正的理解数值,不能对序列数据进行良好的预测。那么,通过强化学习能提高LLM对序列数据的理解吗?
HD508630e
HD508630e
2024.9.20
不断找到新的金矿能延续一个行业的生命。赞同在国内更适合做自己的事情,而且我觉得中国人最擅长利用有限的资源将收益最大化。总之就是留在牌桌上~
lsc2019
lsc2019
2024.9.19
讲的太棒了,请问有文字稿吗?
按时吃
按时吃
2024.9.18
目前o1太慢了,作为产品没有可用性
陆阔Loucle:笑死,它的逻辑能力很强就够了,比 4o 好用多了。至少对我而言,可以帮我从 0 开始建模。
忠心耿耿汉弗莱:如果计算一个月,能解决黎曼猜想,你觉得这是快还是慢?😂
10条回复
osamabomi
osamabomi
2024.9.18
07:26 融合了相比gpt4 scale up几个数量级的transformer和o1rl架构的gpt5? 突然有些期待了