75. 和OpenAI前研究员吴翼解读o1：吹响了开挖第二座金矿的号角

张小珺Jùn｜商业访谈录

74分钟 ·7个月前

32732

上集节目，广密在OpenAI o1问世之前，准确地预言了代号为“Strawberry”（草莓）的项目走向，以及它背后暗示的AGI范式已经转移，强化学习开启了新赛道。

这集节目录制在o1问世之后，我第一时间和边塞科技创始人、清华叉院信息研究院助理教授，同时也是前OpenAI研究员的吴翼聊了聊。他的研究方向正是强化学习。吴翼从技术视角全方位地解读了o1模型，并且分享了只有内部视角才能看见的真实的OpenAI。

我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）

01:50 2019年在OpenAI做研究员

03:04 那个年代所有PHD都希望去Google Brain和DeepMind

03:46 OpenAI o1-preview初体验，很意外在用户使用端做这么大规模的推理

07:20 pre-training（预训练）能挖的金矿越来越少，以强化学习为基础的post-training（后训练）是另一个大金矿，使迈向AGI的梯子多了几节

09:00 o1-preview版本是GPT-3时刻，到没到ChatGPT时刻要看正式版本

10:33 o1应该核心关注两个要点和背后的技术原理

13:54 强化学习能否探索出Scaling Law有希望，但很复杂

15:06 强化学习三要素：reward model+搜索和探索+prompt，每一块都很难

16:42 2014年开始，UC Berkeley集体转向，押注强化学习

19:36 RL算法的演进：从DQN（Deep Q-Network）到PPO（Proximal Policy Optimization）

23:45 相信会带来通用能力而不是垂类能力提升

24:47 长文本是实现AGI的第一步，推理能力是第二步

29:57 通过o1-preview能反向复原哪些技术细节？

34:00 reward model不太可能有一个单独的小组闭着眼睛训练，是耦合的

38:30 思维链、安全、幻觉和算力

41:25 为什么这么项目叫“Q*”？后来又叫“草莓”？梗都很有意思

49:49 o1不代表垂直模型，依然相信会出现全能的大统一模型

57:57 关于Scaling Law，2019年OpenAI内部讨论的细节

01:00:26 2019年的OpenAI处于“闭着眼睛挖矿的状态”

01:03:20 OpenAI当年如何做管理：搞大新闻、发博客，KPI是博客关注量

01:10:28 2020年离开OpenAI后悔吗？

o1发布前的预言单集：AGI范式大转移：和广密预言草莓、OpenAI o1和self-play RL｜全球大模型季报4

【更多信息】

联络我们：微博@张小珺-Benita，小红书@张小珺jùn

更多信息欢迎关注公众号：张小珺

展开Show Notes

OneTiger

2024.9.20

非常感谢嘉宾的分享，让我这个不太聪明给的非技术的男生听明白了，赞👍

insta:非技术的人看了这条评论有信心听下去了

JASting

2024.9.18

12:56 强化学习是新的复杂的范式，不是pretraining的大力出奇迹，是更复杂的框架和系统。需要解决数据基础上，解决prompt问题（学什么题）、reward问题（做错了什么时候提示）、探索问题（做错了如何引导找到正确答案）。而且必须三个问题必须同时解决，才能做好强化学习，所以很难。

一只老男人:如果这三个问题都解决了，大模型的优势也就荡然无存

JASting

2024.9.18

07:24 O1的出现不是AGI路线的转弯，是进阶，Pretraining是一楼，Post training是二楼。AGI分pretraining和post training。Pre-training是有很多的数据，通过预训练的方式训练出很大的模型，涌现很强的知识和表现。Post training是可以做强化学习和搜索，产生合成数据，进而反哺Pre training，所以是进阶。