73. AGI范式大转移：和广密预言草莓、OpenAI o1和self-play RL｜全球大模型季报4

张小珺Jùn｜商业访谈录

87分钟 ·7个月前

25921

110

今天这集是我和广密【全球大模型季报】第4集。这期2024年Q3季报，提前和大家见面。

我们正进入的9月会是AGI的一个大月，OpenAI造势已久且绝密的项目“草莓（Strawberry）”将在不久后揭开它神秘的面纱。此外，Anthropic也会推出Claude 3.5 Opus，这两个模型将是AGI进程是否顺利的关键风向标。

这些项目很可能暗示了硅谷AGI范式已经静悄悄地发生剧烈转移。

本集节目带来了对AGI发展路径的最大猜想——硅谷AGI范式正在发生转移，self-play RL（强化学习）开启了新赛道。大部分人还没意识到，在纯靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后，多家硅谷明星公司已经把它们的资源重心押宝在一条新路径上：self-play RL（自博弈强化学习）。只不过，这个范式转移还未形成共识。Self-play RL到底是什么？它如何有别于传统路径？它能成为继续Scaling Law的一把神奇钥匙吗？

这集节目是关于self-play RL的一篇高质量科普，也希望为大模型从业者带来方向性的启发。

除了self-play RL，我们着重探讨了硅谷一级市场的明星赛道（Coding、视频生成、通用机器人），以及OpenAI与科技巨头近况。希望我们【全球大模型季报】能帮大家了解最前沿的AGI动态，并且能持续给大家带来启示。

本集是《张小珺Jùn｜商业访谈录》和《海外独角兽》的串台节目。

我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）

坏的推演猜测，GPT-5不乐观；好的推演猜测，RL开启新赛道

02:30 语言模型预训练的范式或许遇瓶颈，模型scaling边际效益开始递减

05:21 为什么不一定能支持模型在GPT-4o基础上大幅跃升？现在处于“真空死亡地带”？

06:43 我最担心的是，纯靠语言模型的经典Scaling Law /Pre train这个物理规律遇到瓶颈，或者在更大参数比如2-3T以上的情况下开始失效了

09:37 如果scaling law在模型变大的过程中不work，现在有三条潜在路径：1、多模态尤其是视觉（但还没有证据说能从视觉模态训练涌现智能能力）；

2、10万卡集群（但10万卡集群充分互联的难度比预期难，可能是全人类最难的项目之一）；

3、强化学习self-play RL（这是范式级别的大转变！）

12:53 如果我是AI公司CEO，我会200%资源all in RL这条路

13:40 概念解释：Reinforcement Learning，简称RL，中文强化学习（Ilya用一句话概括强化学习：让AI用随机路径去尝试一个新任务，如果效果超出预期，就更新神经网络的权重让AI记得多使用成功的实践，再开始下一次尝试）

19:05 代码和数学可以变得很强，能不能泛化到更多领域没有证据

22:39你也可以把语言和预训练比作人类基因组，携带着人类几千年进化的基因，强化学习RL就是人类成长的一生

24:55 必须很聪明的模型才能有能力做self-play RL的探索

27:07 Anthropic Claude 3.5是这一波标志性的产品，他们不搞Sora/搜索，主线是RL；业内少数人意识到RL的重要性是最近两个月

28:35 硅谷明星公司现阶段的资源投入？1-2家公司把RL当作最高优先级

28:56 2024年9月OpenAI和Anthropic即将要发布的，什么值得期待？

29:42 AGI范式大转移之下，还会有GPT-6和GPT-7吗？（可能明年会看到很小的模型比今天GPT-4o要聪明非常多，一个期待是实现AGI不一定需要巨量参数的模型）

30:33 新范式的困境和卡点

32:52 Character.AI出售给Google预示AGI竞赛上半场结束，下半场开始，创始人Noam从Google进入self-play RL下半场

34:36 新范式下，还需要那么多GPU吗？很多人关心英伟达股价

37:06 AGI范式转移只在最核心的researcher中有共识，几百人，还没扩散

38:55 Claude 3.5 Sonnet显著提升，带动了编程工具Cursor的火爆出圈

40:08 OpenAI在造势的草莓、Q*，猜测背后都是强化学习RL

41:55 国内公司应该应该all in 200%跟进RL

42:44 语言模型和RL是乘级关系

硅谷AI一级市场的四个明星赛道

45:12 硅谷的AI赛道：围绕LLM周边有3-4个圈，搜索、代码Coding、视频、机器人

1、Coding：在硅谷出现了4-5家独角兽（Devin、Augment 、Magic、Poolside，都已经20-30亿美元估值），最近编程工具Cursor出圈

2、视频：这个赛道诱人，但格局不稳定、决胜窗口长

3、通用机器人：想赌具身领域也有个OpenAI，现在是基础科学突破的问题，没看到在机器人领域的“通用泛化能力”出现

57:00 美国通用机器人的明星项目（Pi、The Bot是业界公认最头部的项目，除此之外融资金额很大、声量也比较高的是Skild AI、Figure AI）

58:31 国内vs硅谷机器人：硅谷投robot foundation model一个大脑，像Andorid；在国内投整机，OV和小米

01:01:56 LLM->多模态->具身智能->世界模型，这是AI发展路径

01:05:54 LLM vs 移动互联网，叙事逻辑是什么？哪些明线与暗线？

01:07:04 有没有可能，今天不做强化学习的公司未来都跑不出来

01:08:05 站在现在，重新评论一下中国LLM？“月亮和六便士”

OpenAI和科技巨头

01:12:37 OpenAI

1、有点浪费技术领先的红利，产品没接住

2、联合创始人Greg Brockman、John Schumann离职

3、Ilya离开应该是bet on两个路线（多模态/强化学习，大概率是RL）

01:17:10 Q*和草莓和RL应该是一件事，草莓是代号，RL是方法

01:18:07 回答红杉美国合伙人 David Cahn发布最新文章《AI’s $600B Question》

01:20:00 在2024年Q3，AI叙事还有哪些非共识？

01:22:45 Character.AI之后，哪些AI公司还会被收购？做个预测

01:23:38 2000年互联网hype破灭后只留下Amazon一家公司，今天AI hype如果破灭了，谁是下一个Amazon?

01:24:24 AGI第一幕是科技巨头受益，第二幕还没完全展开

【全球大模型季报】系列

2023年：口述全球大模型这一年：人类千亿科学豪赌与参差的中美景观

2024年Q1：和广密聊AGI大基建时代：电+芯片=产出智能

2024年Q2：口述全球大模型这半年：Perplexity突然火爆和尚未爆发的AI应用生态

【更多信息】

联络我们：微博@张小珺-Benita，小红书@张小珺jùn

更多信息欢迎关注公众号：张小珺

展开Show Notes

庄明浩

2024.9.05

感谢guangmi和小珺每个季度更新ai进展

张小珺

2024.9.05

最新大模型季报出炉。“如果一个季度只收听一期关于全球大模型的播客，听这期就够了。”😃

晨萱-语迟者说:确实，虽然不少单集的播客聊 AI 也很好，但在想聊 AI 的播客时，只有这档张小珺访谈

gpCigqFeC52

2024.9.05

**一句话总结**：硅谷AGI领域正在经历范式转移，强化学习（RL）成为新的突破方向，而大语言模型（LLM）可能遇到瓶颈。

**观点整理与阐释**：

1. **AGI范式转移**：笔记中提到，硅谷AGI领域正在经历范式转移，从单纯依赖语言模型预训练转向强化学习（RL）。这表明，传统的LLM预训练方法可能遇到瓶颈，需要新的方法来推动AGI发展。
2. **强化学习（RL）的重要性**：笔记强调了RL在AGI发展中的重要性，认为RL是让AI进行自主探索和连续决策的关键方法，更接近人类学习方式。Self Play RL通过让AI自主探索任务，并根据结果更新神经网络权重，从而提升模型的逻辑推理能力。
3. **LLM预训练的瓶颈**：笔记指出，LLM预训练可能遇到瓶颈，主要体现在参数规模、数据量和算力等方面。例如，目前模型参数规模难以大幅提升，高质量数据获取困难，算力提升有限等。
4. **多模态与十万卡集群**：笔记提到了两种可能的突破路径：多模态和十万卡集群。多模态结合语言和视觉等多种模态数据，可能带来交互能力和逻辑推理能力的提升。十万卡集群则通过提升算力来推动模型发展，但面临技术和管理上的挑战。
5. **RL的关键要素**：笔记认为，RL的关键要素包括环境和智能体。环境提供AI探索和完成任务的空间，智能体则根据环境变化进行决策并获取奖励。
6. **RL与LLM的互补关系**：笔记指出，LLM是进行RL的必要条件，因为只有足够聪明的模型才能进行有效的探索。同时，RL也能为LLM提供新的训练数据，形成良性循环。
7. **RL的应用前景**：笔记认为，RL在代码和数学领域具有确定性较高的应用前景，但在其他领域则需要解决奖励模型设计等问题。未来，RL可能推动编程能力的民主化，并应用于各个垂直领域。
8. **硅谷AI赛道**：笔记将硅谷AI赛道分为大语言模型、搜索、代码、视频和机器人等几个方向。其中，代码和视频被认为是具有巨大潜力的赛道，可能诞生新的巨头公司。
9. **通用机器人**：笔记认为，通用机器人领域的技术突破尚需时日，目前更多处于研究阶段。中国公司在硬件制造方面具有优势，但需要与AI能力结合才能取得突破。
10. **中国LLM公司**：笔记指出，中国LLM公司在模型技术上与硅谷公司差距不大，但在产业化落地和AGI研究方面还有待加强。
11. **OpenAI的商业化**：笔记认为，OpenAI在商业化方面存在一些问题，例如技术领先优势未能有效转化为产品或商业优势，以及人才流失等。
12. **AI对市场的影响**：笔记认为，AI将重构现有市场，推动老公司商业模式升级，并可能诞生新的巨头公司。

**总结**：笔记描绘了AGI领域正在经历的范式转移，并探讨了RL在AGI发展中的重要性。同时，笔记也分析了LLM预训练的瓶颈，以及代码、视频和机器人等AI赛道的应用前景。

展开

全速前进:这是ai总结的嘛

gpCigqFeC52:是的

共5条回复

巴黎的胖子

2024.9.06

投资人最擅长的就是拿着半截就开跑，把自己似懂非懂的事情快速形成共识

HD321933z

2024.9.07

这个嘉宾思维太跳跃了，逻辑好差，经常讲着A聊到B就开始讲B了，顺便带到C又开始讲C了，结果其实A还没讲完没讲清楚。这个毛病我太清楚了，因为我也有，根本原因还是懂得不够深，每个点都浅尝辄止打不透。

Guangmi:刚开始学习，希望启发大家多讨论，有些思考应该对大家有帮助。多讨论知识，对事儿不对人

ZWan-:你爹味大的爆炸，真鸡 8️⃣烦人

共5条回复

Joes东

2024.9.14

这哥们一直很厉害又是提前开盒了o1的技术方向感谢主播和嘉宾

大胃的达威

2024.9.09

投资就是非共识，讨论区质疑的人多很正常，都同意听的价值就没有了。支持广密加大分享密度！

sanbai_

2024.9.06

嘉宾把 cursor 的成功全部归因于 Claude 模型有失偏颇。
你可以把内置的模型换成别的，比如 deepseek 同样好用。
cursor 是怎么做的他们在技术博客里也透露过一些，可以看出来对编辑代码这个行为比竞品有更深的理解。

Yvaine_Pan:求链接啊啊啊这个很重要

frank_ocean

2024.9.05

guangmi是国内极少数真正站在全球视角看AI的。paraphrase一下就是有situational awareness

飞天_AO7

2024.9.05

真是太精彩了，反复听，今天这个知识密度真的值得听上十几遍，我对很多问题要边听边去搜索和学习才能听明白，然后信息的密度非常大，就像评论里有观众说的，如果要听AI最近进展的话，听这一期就够了。强化学习很早就提到过，但是真的把它当做饭吃也要到了scaling law到了极限的时候，现在好像就是处于这样一个临界点，原以为大语言模型走到目前的这个状态，就是不停的堆参数和堆新模型对算力，没想到原来暗线就已经出来了。强化学习是新的范式和方向。最近还看到新闻里提到要在外太空建设集群中心，方便散热和太阳能的收集，这个想法真的很不错，感觉除了核聚变可控的以及传统的解决能源算力的方法外，又多了一条新路径

长征2024

2024.9.08

rl能够商业化落地的前提是必须有一个封闭的环境，像游戏、围棋、甚至是数学几何证明、某些具体的家务等，但是不可能泛化，面对开放式的环境，rl玩不转，短期内靠rl不可能通往AGI

orangeai

2024.9.10

Note on 广密播客 Q3
预训练增长曲线平滑，Scaling Law 的范式变化。
RL 是接下来的重点，不做好 RL 的模型公司可能就没机会了。
RL 可以单点突破代码和数学
Coding 局部 AGI
Coding 大众化
视频大众化
游戏领域落地
meta 眼镜采集的是机器人第一视角的数据
机器人，从刚需场景机器人入手，通用还是会远一些。
超预期的公司：Claude 和 PPLX
中国对4G 5G的投资都是七八千亿，对 AI 的投资呢，其实很少。
AI 改变了生产力，但是并未改变生产关系，并未改变消费和分发。消费和分发还是掌握在大公司手里，所以 AI 对大公司的作用更大。

GZXD

2024.9.09

1:11:55 从这个时间点开始，讲了3分钟非常精彩的一段

追希

2024.9.06

很用心，干货太多了，几乎每期必跟

JASting

2024.9.06

1:10:38基础研究是在社会在资本富足后的奢侈品。国内LLM模型没有拉开差距，还是因为基础研究不够厚。没有投入基础研究，是因为ROI低，失败后一无所获。

欢喜HD

2024.9.05

太幸福了！！简直是最好的时代！！！

无为的JaMEs

2024.9.13

O1发布，回来了在学习下这一期

星河_HqwO

2024.9.11

模型三要素～数据被讨论的很少，希望出一期

FelixHo

2024.9.06

00:31 强化学习看起来美好，实际太低效了，这期嘉宾有点太迷信了

HedgeSage

2024.9.05

这种季报模式值得加大密度！
广密聊AI的第一期就很硬核，
专业度和认知深度超越很多所谓大V；
于是后续每一期必听！
小珺可以考虑下如何复制这种模式，
相信很多嘉宾也是有料的，
但是单独一期采访很难输出系统的表达；
如何选出听众感兴趣且愿意系统了解的主题？
又如何筛选出具备系统表达能力的嘉宾？
这样花3个小时左右的时间，
能够比较系统地了解一个领域得发展脉络，
可能就是播客节目最大的价值：信息增益。

打开小宇宙查看更多精彩评论