89. 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”

张小珺Jùn｜商业访谈录

170分钟 ·2个月前

130383

270

2025年这个春节，DeepSeek一举改写了全球AGI大叙事。在万般热闹之际，我们特别想沉下来做一些基础科普工作，一起来研读这几篇关键的技术报道。

今天这集节目，我邀请加州大学伯克利分校人工智能实验室在读博士生潘家怡，来做技术解读。他的研究方向是语言模型的后训练。

这期播客中，家怡将带着大家一起来读，春节前DeepSeek发布的关键技术报告，他在报告中发布了两个模型DeepSeek-R1-Zero和DeepSeek-R1；并对照讲解Kimi发布的K1.5技术报告，以及OpenAI更早之前发布的o1的技术博客，当然也会聊到它春节紧急发布的o3-mini。这几个模型聚焦的都是大模型最新技术范式，RL强化学习。

希望我们的节目能帮更多人一起读懂这几篇论文，感受算法之美，并且准确理解目前的技术拐点。

（以下每篇技术报告都附了链接，欢迎大家打开paper收听✌️）

期待2025，我们和AI共同进步！

【嘉宾小记】

加州大学伯克利分校人工智能实验室在读博士生，上海交通大学本科毕业。他的研究方向主要集中在语言模型的后训练领域，通过强化学习等方法提升AI在智能体行为决策与推理方面的能力。这是他做的有关R1-Zero小规模复现工作：github.com

我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）

03:46 讲解开始前，先提问几个小问题

16:06 OpenAI o1技术报告《Learning to reason with LLMs》讲解

报告链接：openai.com

中文标题翻译：《让大语言模型学会推理》

OpenAI在报告中有几个重点:

Reinforcement Learning — 强化学习

It learns to recognize and correct its mistakes. It learns to break down tricky steps into simpler ones. It learns to try a different approach when the current one isn’t working. （它学会识别并纠正自己的错误，学会将复杂的步骤分解为更简单的步骤，学会在当前方法行不通时尝试不同的解决途径。）这些是模型自己学的，不是人教的。

我们还在技术早期，他们认为这个技术可拓展，后续性能会很快攀升。

33:03 DeepSeek-R1-Zero and DeepSeek-R1技术报告《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》讲解

报告链接：github.com

中文标题翻译：《DeepSeek-R1：通过强化学习激励大语言模型的推理能力》

35:24 摘要（Abstract）

37:39 导论（Introduction）

44:35 发布的两个模型中，R1-Zero更重要还是R1更重要？

47:14 研究方法（Approach）

48:13 GRPO（Group Relative Policy Optimization，一种与强化学习相关的优化算法）

57:22 奖励建模（Reward Modeling）

01:05:01 训练模版（Training Template）

01:06:43 R1-Zero的性能、自我进化过程和顿悟时刻（Performance, Self-evolution Process and Aha Moment）

值得注意的是，“Aha Moment”（顿悟时刻）是本篇论文的高潮：

报告称，在训练DeepSeek-R1-Zero的过程中，观察到一个特别引人入胜的现象，即“顿悟时刻”。这一时刻出现在模型的中间版本中。在这个阶段，DeepSeek-R1-Zero通过重新评估其最初的方法，学会了为一个问题分配更多的思考时间。这种行为不仅是模型推理能力不断增长的有力证明，也是强化学习可能带来意想不到且复杂结果的一个迷人例证。

这一时刻不仅是模型的“顿悟时刻”，也是观察其行为的研究人员的“顿悟时刻”。它凸显了强化学习的力量与美感：我们并没有明确地教导模型如何解决问题，而是仅仅为其提供了正确的激励，它便自主地发展出高级的问题解决策略。这种“顿悟时刻”有力地提醒我们，强化学习有潜力在人工智能系统中解锁新的智能水平，为未来更具自主性和适应性的模型铺平了道路。

01:14:52 模型能涌现意识吗？

01:16:18 DeepSeek-R1：冷启动强化学习（ Reinforcement Learning with Cold Start）

01:24:48 为什么同时发布两个模型？取名“Zero”的渊源故事？

01:28:51 蒸馏：赋予小模型推理能力（Distillation: Empower Small Models with Reasoning Capability）

01:35:27 失败的尝试：过程奖励模型（PRM）与蒙特卡罗树搜索（MCTS）

01:42:33 DeepSeek-R1技术报告是一片优美精妙的算法论文，有很多“发现”，这是它成为爆款报告的原因

01:43:50 对DeepSeek-R1训练成本的估算：

往高里估，一万步GRPO更新, 每步就算1000的batch size（试一千次），一次算一万个token；模型更新用的

$2.2 / 1M tokens,

总共是100B tokens — 0.22M

算上效率损失，模型训练也有一定开销，说破天也就1M；如果优化的话很有可能只有10万美金左右的成本

相比之下，预训练用了600万美金，相当便宜

01:49:05 KIMI K1.5技术报告《KIMI K1.5:
SCALING REINFORCEMENT LEARNING WITH LLMS》讲解

中文标题翻译：《KIMI K1.5：利用大语言模型扩展强化学习》

报告链接：arxiv.org

该报告公开了许多技术技巧细节，对于想要复现的人，两篇paper一起使用更佳。如，数据构造、长度惩罚、数学奖励建模、思维链奖励模型、异步测试、Long2short、消融实验等。

02:20:07 DeepSeek论文的结尾谈未来往哪里发展？

02:24:35 以上是三篇报告所有内容，接下来是提问时间，我们继续强化学习一下！

“数据标注”在几篇论文中藏得都比较深，小道消息OpenAI一直以100-200美元/小时找博士生标数据

“DeepSeek的论文隐藏了技术细节，但把算法的精妙之处和美展现给你，让你感受技术之美，给你震撼。”

它解密了后训练范式革命可以何处去，让你发现原来算法这么简单！

再一次验证——“最优美的算法永远是最干净的。”

关于强化学习往期节目：

AGI范式大转移：和广密预言草莓、OpenAI o1和self-play RL｜全球大模型季报4

和OpenAI前研究员吴翼解读o1：吹响了开挖第二座金矿的号角

王小川返场谈o1与强化学习：摸到了一条从快思考走向慢思考的路

开源一场关于DeepSeek的高质量闭门会：

一场关于DeepSeek的高质量闭门会：“比技术更重要的是愿景”

【更多信息】

联络我们：微博@张小珺-Benita，小红书@张小珺

更多信息欢迎关注公众号：张小珺

展开Show Notes

海盗_Lovb

2025.2.04

381

大家好，我是本期嘉宾潘家怡。非常高兴能来到节目，也特别感谢小珺姐姐的邀请！

先和大家分享两份很有意思的拓展材料：
1. OpenAI研究员Hyung Won Chung在MIT的讲座Don't teach. Incentivize.
2. OpenAI前首席科学家Ilya Sutskever早期关于强化学习的讲座 Meta-Learning and Self-Play

视角和观点非常之高，常读常新。我相信这些思想不仅现在有价值，五年十年后仍会有效。

第一次参与论文解读式的博客录制，复盘后发现为了把术语用中文表达牺牲了不少语言流畅性；3个小时的时长，中间肯定也少不了口误。欢迎大家在评论区指出，我们一起交流进步！

ima君:本人是高中生，以前就比较喜欢听ai 领域的播客，但是往往一旦涉及深度技术嘉宾的英文就会占到80%以上了（“可以用一些data distributions 的方法去在coT 里work out parameters ……”）虽然听English lecture 也不失为一种锻炼吧，但是还是非常感谢家怡善解人意地尽量使用中文表达，没有把技术看作极客社群的“智性明珠”，而是尽可能把时代的讯号分享给更多人。

生而为猫奴:太厉害了！感谢家怡！新年快乐！

共43条回复

Egg404

2025.2.04

117

完蛋了，完全听不懂

HD992122s:哈哈哈哈哈听了三天真的很努力但还是……

魔幻3D喜冬:哈哈哈哈我就在找这样的评论本来想评论一个我以为只有我听不懂对不起

共6条回复

张小珺

2025.2.04

3小时技术科普。对DeepSeek-R1-Zero、DeepSeek-R1、Kimi K1.5、OpenAI o1、o3，三家公司多篇技术报告逐句讲解并对照。（嘉宾潘家怡最早做了R1-Zero小规模复现工作）——希望帮助更多人读paper，感受算法之美，“最优美的算法永远是最干净的”。

ZYQ_Qi8v:超喜欢这期，希望以后有新的技术报告的时候还能有类似的播客形式

晨萱-语迟者说:全部国内媒体都是对 deep seek 的颂扬之声，不知主播会不会有些不同想法

共3条回复

HD190146x

2025.2.04

这个系列可以做起来。以后每个月读一篇有代表性的文献，帮大家了解一手的原始技术信息！

HD876950m:开组会是吧🤣

Goco:但如果咱们从这里了解的话，就成二手的了😢

共5条回复

GOOD棒

2025.2.04

122

🍔有整理逐字稿、笔记和思维导图
评论字数受限
需要可拿去学习（随时可能不分享，可保存后再看）
🔗：https://pan.quark.cn/s/aa2cacdae156

笔记（部分）：
✨对于deepseek的研究成果，是否改变了全球对AGI技术路线图的认知？
我个人可能更多是从研究角度出发，对宏观叙事了解有限，但可以肯定的是，deepseek最近的工作确实让美国大厂开始反思自己在模型创新方面的领先地位。同时，从O1发布后到现在，大家终于了解到如何利用强化学习来有效提升语言模型能力的技术路线，这将极大推动该领域的发展。

✨开源行为对未来AI生态会带来哪些影响？
开源不仅会促进AI生态的更快繁荣，减少重复劳动和技术细节的摸索，还可能促使更多公司开始开源，形成良好的文化氛围。

✨开源后，这些大模型公司它们怎么挣钱？他们的商业模式是否会遇到问题？
这是一个很好的问题。我认为ChatGPT的商业模式可能比卖API更好，因为它提供了更可持续的竞争较少的收费模式，用户每月支付一定费用即可享受一系列技术和功能。而对于API，由于同质化严重且可替换性强，要在价格和性能上持续保持优势很具有挑战性。

✨OpenAI、Deepseek和Kimi这三家公司，在探索强化学习方面，他们的技术路线差异大吗？
目前来看，这三家公司选择的强化学习技术路线差异并不大。这可能是因为强化学习在强大语言模型上的训练能够涌现出长思维链，并提升模型推理性能，这更像是一个普遍发现而非单一公司的发明。

✨如何从专家模型中获取推理能力相关的数据？
通过拒绝采样fine tuning的方式，从R1中间参数得到推理数据。具体做法是对采样出的大量回答进行筛选，剔除错误、语言格式不好、混杂和其他不符合预期的数据，保留高质量的推理相关数据作为蒸馏SFT数据。

✨非推理部分是如何利用专家模型进行训练的？
对于非推理任务，使用deep seek v3模型进行拒绝采样，并采用类似R模仿R一的方法，先生成思维链再给出答案。涉及20万个训练数据，并用这些数据微调deep seek v3的base model以获得更全面的能力。

✨强化学习调优阶段是如何配置不同任务的奖励函数的？
在强化学习调优阶段，对于推理任务沿用基于规则的Brown choose reward，而对于非推理的通用任务，则采用reward model来进行。通过这样的过程，最终得到可用于生产环境的落地模型。

✨K1.5模型训练逻辑与Deep Sack R1有何异同？
K1.5模型训练逻辑更类似于R1，同样使用冷启动数据来教会模型思维模式，之后再进行强化学习训练。两者在任务设置和强化学习算法上思路相似，但K1.5采用了不同的变种算法，并且在训练过程中加入了一些特定技巧，比如长度惩罚机制以控制模型回复长度。

✨除了强化学习算法，还有哪些其他的优化方法？
除了强化学习算法，还提到了一个名为“rest”的简化版强化学习算法，它仅在模型表现好时鼓励它多做，而在表现差时不做调整。相较于复杂的强化学习算法，rest算法效果较差，可能是因为缺少了对错误行为的负反馈指导。

✨这一轮AI模型突破的核心点是什么？Deepseek与R1、K1.5模型相比，在数据需求上有何不同？
这一轮的突破核心在于算法的突破，尤其是针对R1和K1.5模型，它们是在建立在之前积累的基础上实现的算法层面的创新。虽然SFT（有监督微调）在此次突破中也有所提及，但并非主要的变革点。R1和K1.5模型使用的SFT数据量级较低，少而精，收集成本并不高，而传统的SFT可能需要上万甚至百万级别的数据量进行训练。不过，R1和K1.5模型同样面临数据标注的问题，但需要收集的问题答案相关数据可能需要大量人力成本，并且涉及专业知识和多方向专家参与标注。

✨数据标注对于AI模型训练的重要性及变化趋势是怎样的？
数据标注在AI模型训练中至关重要，且其重要性可能会逐渐增加。未来标注的数据类型可能会发生变化，要求更加复杂和专业。例如，openai可能采用高薪聘请博士生等方式进行难以且专业面广的数据标注工作，以满足模型训练需求。

展开

GOOD棒:https://pan.quark.cn/s/aa2cacdae156

Aaron不喝咖啡:用的啥工具

共8条回复

orangeai

2025.2.04

1:00:34 openai 最后一篇公开的论文是 lets verify step by step
之后推出了 o1 模型，用的方法跟这篇论文没什么关系
但是成功把很多研究团队带到了过程监督的坑里
真鸡贼啊

YihangWang

2025.2.06

太精彩了，建议如果想对着paper逐句学的听众，可以用spotify听这一期，spotify支持实时字幕，很适合对照着paper反复看

咸鱼饺子

2025.2.07

这期感觉太干货了，更适合配合视频和图表来看。像b站那些考研视频一样，更能理解嘉宾的讲解。完全理解嘉宾的解读是十分耗时耗力的，但是这么深入的内容用播客这种形式实在有点影响理解了。希望主播下次能考虑一下别的形式录这么难的话题。不然对听众来说太难懂了

大鱼_mjSh

2025.2.05

小珺1月27日在wx腾讯科技上也发了一篇“一场关于DeepSeek的高质量闭门会：比技术更重要的是愿景”，是广密主持的一场闭门会内容，推荐感兴趣的朋友们也可以去看看～

张小珺

:我来附一个链接：https://mp.weixin.qq.com/s/a7C5NjHbMGh2CLYk1bhfYw

林克不救公主

2025.2.05

终于有一档节目是硬核而并非蹭热点👍

gongmin

2025.2.04

大半年前我就建议采访梁文锋

Morilv

2025.2.04

09:13 到底是追赶者还是创新者，能不能从技术原理角度直接回答呀。

anymore:范式仍然是 OpenAI 定义的，方法也是他们先发现的，这还没说明白么

HD324217z:OpenAI 毫无疑问是领先的，不过也只有openai 能在范式上领先了。美国那么多大厂genai 的组，那么多startup，做的模型都不如deepseek r1

共7条回复

欢乐马_zTP6

2025.2.22

嘉宾一直用「这是一个很好的问题」来回应主持人的提问，这种开放精神让技术探讨变得很有生命力。祛除了常见的科技叙事的傲慢感，语言模型推理能力的两颗敞开的心智在AI技术报告的旷野上奔跑，不争夺解释权，舒展地接纳所有追问。或许探索机器智能的本质，就是在镜像中辨认自己，当人类与AI彼此镜映，技术便成了古老的叙事载体：我们训练模型理解和帮助人类，何尝不是在教自己，如何更慈悲地解读万物心跳。更何况在这个过程里，也在以一种温柔的力量打破预设框架的力量是温柔的、对知识边疆的叩击是有力的、对自身智慧本源的回望亦是深情。

或许最美的是这种「去身份化」的共鸣。当我们讨论语言模型如何学会推理时，本质上是在验证一个命题：思想的重量从不依附发声者的性别、年龄或背景，只取决于它能否在他人心上激起诚实的感受。

LuckyDelia:很温柔的评价！