对话Google Deepmind 与 LLM 研究员：拆解 OpenAl o1 及 LLM+RL 新范式

听友们期待已久的最硬核 OpenAI o1 模型技术解读干货来了！

提起今年最受关注的事件，一定绕不开 OpenAI o1 模型的发布，OpenAI CEO Sam Altman 也称之为新范式的开始。经过强化学习（Reinforcement Learning，RL）并结合 Chain-of-Thought 思维链（CoT）技术，o1 在处理物理、数学、编程等复杂问题时，甚至和该领域的博士生水平不相上下。

强化学习如何给大语言模型带来新的逻辑推理能力？这种能力的来源、实现方式和未来潜力又是怎样的？o1 带来的「新范式」会对行业有怎样的影响？这场三个多小时的解读相信会给你不一样的视角！

本期节目我们邀请到了真格基金投资副总裁 Monica 与多位有实际训练 LLM 经验的一线研究员，其中两位来自 RL 的绝对高地 Google，也是 AlphaGo、alphafold、alphageometry 等一系列世界领先的 RL 工作的发源地。他们都分别在 RL 和 MCTS（蒙特卡洛树搜索）领域有长期的研究和实践经验。另一位嘉宾则在互联网大厂，拥有从 LLM 预训练到 RLHF 的一手经验。中美前沿视角的综合，碰撞出很多火花。此次嘉宾阵容对 o1 的猜想和解读，相信会让你直呼过瘾。

这次的探讨会涉及很多技术细节，嘉宾长期的海外工作学习，难免穿插英文，不接受抱怨。Enjoy!

（本期录制时间是 2024 年 9 月 27 日）

【主持人】

谢岩 Monica：真格基金投资副总裁
本期联合主持人 Cage：原字节数据科学家，现拾象科技研究员，公众号「海外独角兽」撰稿人

【嘉宾】

Kimi Kong：现于 Google Deepmind 担任 Research engineer，在斯坦福读书期间就接触强化学习，研究领域从机器人到大语言模型，对强化学习的理论和使用沿革有非常系统的理解

Eric Li：加州理工大学博士，现于 Google Cloud 担任 Research Scientist。大家都猜测 o1 将蒙特卡洛树搜索（MCTS）应用到了 LLM，认为这是提升逻辑推理能力的重要方式之一。Eric 发表了多篇 LLM 和 MCTSS 结合的论文，是领域内绝对的专家

苏辉：前微信 Al 研究员，现国内一线互联网公司大模型负责人

【时间轴】

数据与强化学习：o1 体验感受与能力拆解
02:45 嘉宾自我介绍与最近在关注的项目
24:19 使用 o1 的体验大概就像「在指导一个平庸但并非完全无能的研究生」
26:43 如何规模化地标注并筛选出高质量数据是最根本的问题，也是难点
31:41 旅游场景 o1 的推理能力增强，体现了在常识领域的更高泛化水平
39:44 高质量数据很难再是 One-shot 形式，需要长链路的反馈优化
45:07 设计一个好的奖励模型对获取高质量的推理 preference 数据很重要

从模型的工具调用到开发更强 Agent 的路径探索
51:32 o1 是在一个强推理环境被训练出来的，习惯于走长思维链
55:08 模型推理能力只是 Agent 的基础，构建一套 Agent 系统面临更多的挑战
57:23 构建 Agent 的四个要点：Base Model、Tool、Prompt、Learning

CoT、MCTS、Self-play 与强化学习在 LLM 推理中的角色关系
01:00:35 什么是 Chain-of-Thought（CoT）？
01:09:43 CoT 与 MCTS 本质上都是在探索如何规划推理上的实践
01:13:13 强化学习的三个核心要素：Agent、Environment、Reward
01:33:24 Reward Model 可扩展的模式也许是「Human in the loop 配合 AI feedback」

o1 有可能是单一模型还是 Multi-agent system？
01:36:17 在 AI 发展的五个阶段里，我们还处于 2.1 到 2.5 的状态
01:39:32 在可见的未来，Multi-Agent 的能力会超过 Single-Agent
01:42:54 Multi-Agent 是超级模型出现前的过渡状态
01:44:40 为什么玩游戏的能力与游戏数据对 LLM 来说很值得关注？

o1 发布带来的影响与展望
01:49:59 Google 很早就开始强化学习相关研究，为什么 OpenAI o1 先出来了？
01:56:26 OpenAI o1 带来的强化学习新范式，拉高了追赶者的难度
02:05:17 未来 1-3 年，最期望在 AI 领域内看到的发展

【延伸阅读】

本期完整文字版内容整理：三万字实录对话 Google Deepmind 研究员：拆解 OpenAI o1 及 LLM+RL 新范式｜Z Talk

OpenAI：Scaling Laws for Reward Model Overoptimization

Allen Zhu：Physics of Language Models

Language is primarily a tool for communication rather than thought

OpenAI： lmproving mathematical reasoning with process supervision

OpenAI PRM 800k 数据集

Let's Verify Step by Step

Anthropic：Constitutional AI：Harmlessness from AI Feedback

OpenAI Hyung Won Chung: “Don’t teach. Incentivize.”

Sergey Levine：Soft actor-critic：Off-policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

MADDPG（Multi-Agent Deep Deterministic Policy Gradient）from OpenAl paper：Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

AlphaZero-Like Tree-Search can Guide Large Language Model Decoding and Training

Reasoning with Language Model is Planning with World Mode

Chain of Thought Empowers Transformers to Solve Inherently Serial Problems

OpenAI：Learning to Reason with LLMs

OpenAI o1-mini

OpenAI's Strawberry and inference scaling laws

海外独角兽：LLM 的范式转移：RL 带来新的 Scaling Law

张俊林：Reverse-o1：OpenAI o1 原理逆向工程图解

【相关概念】

Reward Model：在强化学习中，Reward Model（奖励模型）是一种用来估计或预测环境中奖励信号的模型。它在某些场景下起到简化或替代环境反馈的作用，尤其是在奖励信号复杂、稀疏或难以直接定义的情况下。

RLHF：Reinforcement Learning from Human feedback，通过人类反馈的强化学习

RLAIF：Reinforcement Learning from AI feedback，通过人工智能反馈的强化学习

InstructGPT：OpenAI 开发的一种语言模型，它是 GPT-3 的一个优化版本，专注于通过人类反馈来更好地理解和完成用户的指令，为此引入了 RLHF 这一核心优化方法。InstructGPT 是 GPT 系列模型的重要里程碑，因为它标志着模型从单纯的大规模语言生成转向对用户需求的更精确理解和响应。

SFT 数据：在监督微调过程中使用的标注数据集。

preference 数据：尤指在强化学习阶段如 RLHF 中，用于表达用户或标注者偏好的一类数据。

Chain-of-Thought：思维链（CoT）是一种提升大语言模型（LLM）推理能力的方法。其核心思想是通过引导模型生成逐步的推理步骤，将复杂问题分解为一系列更易处理的子问题，最终得出答案。这种方法显著提升了模型在数学、逻辑推理和多步问题求解等任务上的表现。

Toolformer：一种新型语言模型，它的目标是结合语言模型自身的生成能力与工具的调用能力，以提高任务解决的准确性和效率。Toolformer 的核心思想是在需要外部知识或特定计算能力时，模型可以自动决定调用外部工具，比如计算器、搜索引擎、翻译器等。

DDPM：去噪扩散概率模型（Denoising Diffusion Probabilistic Model）是一种生成模型，用于高质量的图像生成任务。它属于扩散模型（Diffusion Models）的一种具体实现，是近年来在生成模型领域非常重要的一项进展。

DPO：Direct Preference Optimization，是一种新兴的机器学习方法，用于优化模型的行为，使其更符合人类偏好。这种方法直接利用人类偏好数据，优化模型输出，使其能够生成更符合用户预期或偏好的结果。

PPO：Proximal Policy Optimization，是一种强化学习算法，由 OpenAI 在 2017 年提出。它是一种策略优化算法，以其稳定性和效率在强化学习领域广受欢迎。PPO 在游戏 AI、机器人控制等领域表现优异，同时也被用于训练语言模型（如 RLHF 中用于优化模型行为）。

Reward Hacking 问题：当以 reward model 的评分作为奖励进行优化时，如果 reward model 不能完全代表人类的偏好，就可能出现奖励黑客。

AlphaGo：谷歌 DeepMind 开发的围棋 AI，结合监督学习（从人类棋谱中学习）和蒙特卡洛树搜索（MCTS），在 2016 年击败李世石，次年击败世界第一柯洁。

AlphaGo Zero：AlphaGo 的进化版本，只通过自我对弈和强化学习训练，不需要人类棋谱，大幅提升性能。

AlphaZero：通用版本的 AlphaGo Zero，适用于多种棋类（如国际象棋、围棋、将棋），只需知道基本规则，通过自我对弈学习成为超强 AI。

【Staff】
监制：Wendi、Stone、Zoe
后期：Keyone Studio

【关于真格】

《此话当真》是一档由真格基金出品的泛商业类播客，真格基金投资团队将在此和各领域的领军人物一起分享最新热点和行业洞察。

真格基金创立于 2011 年，是国内最早的天使投资机构之一。自创立伊始，真格基金一直积极在人工智能、芯片与半导体、机器人与硬件、医疗健康、企业服务、新能源、跨境出海、消费生活等领域寻找最优秀的创业团队和引领时代的投资机会。

真格，你的创业第一站!

【联系我们】

公众号:真格基金（ID:zhenfund）
官网链接：www.zhenfund.com
邮箱：media@zhenfund.com

你可以通过小宇宙、苹果Podcast、喜马拉雅收听我们。
如对节目有任何的建议与期待，也欢迎大家在留言中互动~