从DeepMind的Alpha系列看OpenAI的o系列

AGI知益型男

39分钟 ·3个月前

5

·

0

第一期播客里提到IIya把AlphaGo的思想应用到o系列的研发中。大模型的预训练、后训练和推断很好地对应了AlphaGo的三个阶段：基于人类已有数据的离线模仿学习、对策略函数增强和估值函数训练的离线强化学习、基于蒙特卡洛树搜索的在线推断。这一期我们从技术的角度深入讨论这一点，从DeepMind的Alpha系列来理解o系列的发展。

00:57 大模型三阶段 vs AlphaGo三阶段

01:05 o系列技术分析

03:08 基于提示工程(Prompting)的大模型推理

04:59 基于监督学习的大模型推理

06:36 基于强化学习的大模型推理

09:33 突破人类记录的{Q,A}数据

10:02 系统1+X -> 系统2+X

11:29 连续思维链

12:45 Bitter Lesson: Data is all you need

16:40 o系列面临的挑战

17:59 o系列泛化的挑战一：奖励函数和行为空间的适配 -> 强化微调

25:08 o系列泛化的挑战二：无完美模拟器场景下的环境状态预测 -> 世界模型建模

29:50 从Alpha系列发展看o系列

30:55 AlphaGo Zero vs o1: 重视后训练+在训练阶段搜索

32:30 o3的技术分析

34:02 AlphaZero: 多任务和跨领域泛化，MuZero：无完美模拟器场景下的泛化

35:06 MuZero对o系列挑战二的启发

35:49 Alpha系列对o系列挑战一的启发

参考资料：
[OpenAI o1研究员Hyung Won Chung的报告]：

- "Large Language Models . " Talk,2023.10.06.

- “Don’t teach, incentivize . " Talk,2024.09.19.

[IIya介绍SelfPlay的报告]：

"Meta Learning & Self Play." 2018.

[连续思维链]：

-Language is primarily a tool for communicationrather than thought. Nature, 2024.

-Training Large Language Models to Reasonin a Continuous Latent Space.

在小宇宙打开