80: OpenAI o1 来了!与硅流袁进辉聊 o1 新范式和开发者生态晚点聊 LateTalk

80: OpenAI o1 来了!与硅流袁进辉聊 o1 新范式和开发者生态

100分钟 ·
播放数22116
·
评论数30

GPU 算力总消耗会提升,但暂时有冗余;AI 应用开发热情未冷却,只是不被 VC 关注。

今天的节目是一期加更,我们在 OpenAI 最新模型 o1 发布后的第二天,邀请了硅基流动创始人袁进辉与我们讨论了 o1 这一新进展,也分享了今年 1 月至今,袁进辉观察到的 AI 开发者社区的变化。

上次袁进辉做客《晚点聊》是今年 1 月,那时他刚开始新一次创业没多久,选择做服务 AI 开发者的推理(inference,即大模型的使用)加速和优化。

OpenAI o1 的一个重要新特性,正是从扩大 train-time compute 的规模到扩大 test-time compute(见下图,来自 OpenAI 官方博客),即通过在推理阶段分配更多计算资源提升模型效果——也有人称之为从 train scaling laws 到 inference scaling laws。


英伟达 AI 科学家 Jim Fan 说,这可能是自 2022 年 DeepMind 提出 Chinchill Scaling Laws(原版 Scaling Laws 上的一个优化)以来,大模型研究中最重要的一张图。

总结而言,o1 打破了一个预期:过去在大语言模型范式下,模型在解决推理逻辑问题时遇到了瓶颈。而 o1 通过强化学习(Reinforcement Learing,也被简称为 RL)、思维链(chain of thought)和测试时间计算(test-time compute)显著提高了模型的逻辑推理能力,所以在科学、数学和编程等需要更多逻辑能力的任务上表现大幅提升。

这期播客里,袁进辉比较通俗地解释了强化学习、思维链,还有 test-time compute 是怎么发挥作用的。我们也讨论了 o1 的这些新技术特性对算力消耗量,行业应用还有其它 AI 公司的动作可能有什么影响。

节目后半部分,我们进一步讨论了 AI 开发者生态这一年的变化。与很多人的观点不同,袁进辉说,在应用开发端,他没有感到 AI 热潮的冷却,只是现在涌现出的很多开发者是小微企业甚至是个人开发者,他们不在传统 VC 的视野里。所以一方面,创投市场会觉得 AI 应用的爆发不如预期,另一方面,实际调用量也在快速增长。

他还分享了一些一手数据:比如硅基流动自己的客户,调用最多的开源模型,国外是 Meta 的 Llama,中国则有阿里巴巴的通义千问和幻方的 DeepSeek,千问的优势是不同规模的模型版本齐全,而 DeepSeek 则在编程能力上突出。

时间线传送:
·o1 的“Wow”在于突破了大模型方法下的推理能力瓶颈
02:56 o1 发布,兑现了之前已被逐步释放的高预期
03:57 模型三重能力:语言、常识、推理,前两者之前已做得比较好,o1 提升了第三点
05:25 “弱智吧”是大模型试金石?
06:35 同样使用强化学习,AlphaGeometry 关注度为何没有 o1 高?——强化学习本身不新了,Alpha 家族的 Wow 时刻已经发生,o1 的进展是打破了大语言模型推理弱的预期
10:28 o1 新方法:强化学习、思维链、test-time compute
11:06 强化学习和思维链,都是在解决数据问题
11:34 强化学习可以补充专业数据,它更适合规则清晰、反馈清晰的领域
16:50 思维链(chain of thought)是在补充抽象层次较高的宏观数据
23:09 强化学习和思维链可以正交,比如可以通过强化学习也生成一系诶思维链分步骤数据
25:07 列出思维链:最初是人写,现在可能是用规则,更优雅是靠模型
29:19 test-time compute,这不是直接补充数据缺陷,而是原本做一次的推理(inference)变成做 N 次,就像人的“深思琢磨”
31:18 强化学习、思维链、放更多资源给推理,每一个单独看都不是石破天惊的 idea,但 OpenAI 做了很好的组合
34:36 “2022 年以来大模型领域最重要的一张图”,揭示 inference scaling law

·总算力需求会提升,短期有冗余,o1 不改变训基础模型公司减少的趋势
36:49 o1 新范式意味着需要更多 GPU 吗?对英伟达的影响?
38:51 猜想,预训练和强化学习的具体结合方式
40:56 算力需求也和参数规模相关,推理核心本身的参数可能不会特别大
43:32 从 API 收费看,目前 o1 推理成本可能是 4o 的几十倍
47:05 o1 最适合用在哪儿?Agent 可能能跑通了
48:45 程序员是最适合的 Agent 吗?辅助程序员在 o1 前就在发生
50:13 脑洞:o1 这类模型继续发展,能解决黎曼猜想吗?
54:28 目前 o1 很慢,但有优化空间,一个技术应用的规律是:效果在早期更重要,之后缩短计算时间、降低计算成本几乎是确定性的
58:15 为什么目前 API 调用对速率有限制,且不支持一些功能?
01:00:14 当前可做的推理优化:并行部分思维链计算,减少不必要的思维链过程
01:04:20 新变化也让一些工作可能没必要了,比如复杂的 prompt 工程
01:06:06 o1 对中国的影响:总体不改变训基础模型的公司变少的趋势
01:10:48 去年至今,GPU 算力价格已在下降,训练需求减少,推理需求增长暂时不会弥补,短时间 GPU 有冗余

·AI 应用开发需求未冷却,只是更分散、更小微、个人化
01:13:13 供给端有调整,但在技术应用端,“我没有感到变冷”
01:15:13 更多个人开发者和小微企业做探索,更多其他行业来尝试,因为不需要完整 AI 班子了
01:18:33 应用未冷却和 VC 市场觉得应用没爆发不矛盾,因为对 VC 还太小
01:19:52 硅基流动推出云服务后增长很快。“如果每天和开发者打交道,不会觉得行业停滞或在变冷”
01:20:31 一些增长快的产品例子,捏他
01:21:38 云服务带来便捷的例子:Koji 十分钟写完 emoji AI 翻译器
01:24:20 继续坚定出海,目前硅流海外客户更多
01:26:32 硅流平台被调用最多的开源模型:通义、DeepSeek、Llama
01:27:39 “需求在这边时,谁都来帮你的忙”
01:29:27 硅流平台上的客户,每天调用数亿到 10 亿 token 的是有的
01:30:22 叶军分享的钉钉 AI 付费的启发:用户现在为小功能付费,而不是复杂大应用
01:32:46 从苹果手机可能是入口,到“巨头递减”
01:38:02 我们看到大模型的“瓦特蒸汽机”了吗?

相关链接:
本期播客文字整理版

袁进辉上次做客晚点聊:《58:光年之外联创再出发,与袁进辉聊 AI Infra 到底做什么?》

硅基流动云平台 SiliconCloud
siliconflow.cn

《OpenAI 再次给大模型 “泡沫” 续命》(《晚点 LatePost》关于 OpenAI o1 的文章)

“蹭下热度谈谈 OpenAI 的价值”(播客中提到的中科院张俊林微博)

登场人物:
袁进辉,硅基流动创始人。联系可加微信:SiliconFlow01
程曼祺,晚点科技报道负责人。即刻:程曼祺_火柴Q
贺乾明,晚点科技报道作者。即刻:我是 chiming

剪辑:甜食

展开Show Notes
置顶
文字整理版来了!(我也把链接贴到 shownotes 了,更方便直接跳转。
https://mp.weixin.qq.com/s/zHDgDFG85xu3kFcAwpJfwA
曼祺_MatchQ
:
在 shownotes 结尾的“相关链接”部分
MasterPa
MasterPa
2024.9.17
能不能请袁老师来做常驻嘉宾!
忠心耿耿汉弗莱:确实应该让袁老师常驻,听完这期播客,直接给 在 siliconflow 注册充值了😂
曼祺_MatchQ
:
😄
这一期信息量好高,想看文字稿
曼祺_MatchQ
:
准备中 😄(应该是会摘录一部分 也会做一些精简
夢似飞花自在輕:谢谢
4条回复
momomoss01
momomoss01
2024.9.18
一句话总结:本笔记讨论了OpenAI最新模型O1在逻辑推理能力的提升,采用强化学习、思维链和推理时计算等技术,并探讨了这种进展对算力需求、应用开发和AI开发者社区的影响。

详细观点展开:
1. O1模型通过强化学习、思维链和推理时计算等技术显著提升了逻辑推理能力。
2. 这些技术通过生成专业数据和处理复杂问题,弥补了大模型在专业能力和宏观问题处理上的不足。
3. O1的应用前景包括增强AI代理能力,特别是在编程、科学和工程等需要高水平推理的领域。
4. 尽管O1提升了推理能力,但其响应时间和一些简单问题的处理效率仍有待优化。
5. 对于AI基础设施公司(如归际流动)来说,O1带来了新的优化机会,特别是在推理阶段的多步骤处理和并行计算。
6. 从市场角度看,O1的技术扩散不会改变大模型公司的整合趋势,但由于其边际收益递减性质,未来可能会有更多垂直领域模型的涌现。
7. 开发者社区热情并未冷却,反而涌现出更多个人和小微企业开发者,尽管这些新应用尚未达到被主流投资机构关注的规模。
8. 国内GPU算力因模型训练需求下降而存在冗余,但推理需求的增长趋势仍在。
9. AI应用的普及和多样化显示出从PC和移动互联网时代向更高效率的AI技术时代的过渡特征。
momomoss01
momomoss01
2024.9.18
# 思维导图:O1模型的发布与AI开发者社区的变化

## 1. O1模型的发布

### 1.1 发布背景
- O1模型在推理能力上的突破
- O1使用的三个主要技术方法
- 强化学习(RL)
- 思维链(chain of thought)
- 推理时间计算(test time compute)

### 1.2 技术方法详解

#### 1.2.1 强化学习(RL)
- 强化学习的作用:生成专业领域的数据
- 强化学习的适用领域:规则清晰的问题(如围棋、数学证明)
- 强化学习的局限:难以构造模糊或复杂环境的反馈

#### 1.2.2 思维链(chain of thought)
- 思维链的作用:分解宏观问题为细粒度问题
- 思维链的实现方式:
- 人工构造模板
- 训练模型自动选择思维链
- 思维链在O1中的应用:可能通过强化学习生成宏观策略数据

#### 1.2.3 推理时间计算(test time compute)
- 推理时间计算的作用:在推理阶段分配更多计算资源
- 推理时间计算的实现:多次调用模型进行反思(reflection)
- 推理时间计算的效果:显著提升复杂问题的解决能力

### 1.3 对算力需求的影响
- 训练阶段的算力需求增加
- 合成数据的增加
- 模型参数量的影响
- 推理阶段的算力需求增加
- 多次推理的需求
- 可能的并行计算优化

## 2. AI开发者社区的变化

### 2.1 开发热情的变化
- 开发者社区的热情未冷却
- 涌现出更多小微企业和个人开发者
- 应用探索的多样化:从小孩教育到老人关怀

### 2.2 应用场景的变化
- 编程辅助工具的普及
- 垂直领域模型的兴起
- 个人和小企业的创新应用

### 2.3 开源模型的使用情况
- 调用量最多的开源模型:
- 国内:通一千问、DeepSeek
- 海外:Llama
- 开源模型的优势:
- 通一千问:模型版本齐全
- DeepSeek:编程能力突出

### 2.4 算力市场的变化
- GPU租金的下降
- 算力需求的波动
- 推理需求的增长预期

## 3. 未来展望

### 3.1 技术进步的影响
- 模型能力的持续提升
- 强化学习和思维链技术的普及

### 3.2 应用爆发的可能
- 个人和小企业的创新潜力
- AI在各行业的渗透

### 3.3 市场策略的调整
- 面向海外市场的策略
- 跟随应用探索的节奏

## 4. 结论
- O1模型的发布标志着大模型在推理能力上的重大突破
- AI开发者社区的热情和创新能力依然旺盛
- 未来AI技术的进步和应用爆发值得期待
good_luck
good_luck
2024.9.20
这一期讲的挺好 高质量嘉宾
Missy_rmCG
Missy_rmCG
2024.9.19
法律啊,案例啊,多适合
这期真的开眼界
小米魔女
小米魔女
2024.9.17
感谢嘉宾分享。对RL有了很深入的了解,也增加了大家对于AI开发的信心. 我们只是需要耐心,其实很多变化都在进行.
入夜
入夜
2024.9.19
算力过剩可能已有先兆,超级产品经理的时代又快到来。
07:00 大笨蛋吧笑死
Wise先生
Wise先生
2024.9.27
48:09 听到这,个人感觉并不是之前的应用或项目没有尝试去做过类似cot,reflection这样的事情。只不过之前的玩法都是让大模型套娃组合成工作流的方式,又或者是像dspy那样起步就构建好需要的输入输出范本,然后自动调参来让输出效果变好。o1试图在模型侧就去解决同样的问题,而不需要再依赖于其他组件的建设。好处当然是有利于agent,因为agent本身界定就是从通用变得专业,而一个专业agent可不断积累的数据也会越来越多,是大模型试图成为人类专业人士。这样既可以克服现有数据量不足,还有希望建立所谓的数据飞轮。一个agent只要有人持续不断地用,便会变得越来越强大。当然,专业人士是否愿意将自己完全交付给模型,这是另外一个问题。
HD1004441z
HD1004441z
2024.9.22
受益匪浅 谢谢嘉宾和主持人
豆Jayce
豆Jayce
2024.9.17
这一期需要听几遍
1:38:39 晚点好专业
cccc_V7lh
cccc_V7lh
2024.9.20
所以听了半天,现在的数据量不够的话,整个ai的基础底层逻辑就完全失效了嘛。基本上ai就现在已经没什么多大的。提升空间了。
曼祺_MatchQ
:
所以 o1 的一个进展之一就是它找到了一些方法可以补充更多有质量的数据。
露露大大
露露大大
2024.10.12
信息密度太低了,讲的都是共有知识,明显嘉宾不是很懂
1:27:40 百川和Yi模型现在不行了吗
16:54 强化学习是来生成数据的,让原来自然数据里不存在的数据通过强化学习的设置,再把这些数据放进训练数据里,使得训练出的模型有这块能力。强化学习解决数据问题。