本节目是全球投资平台拾象科技和开源研究平台「海外独角兽」共同出品的声音栏目。
作为海外独角兽和「张小珺商业访谈录」的第四期串台,拾象科技 CEO 李广密和商业作者张小珺的围绕 AGI 发展路径展开了猜想,self-play RL 是新的 scaling law。
这期讨论录制于 2 周前,随着今天凌晨 OpenAI o1 模型的发布,我们的猜想得到验证,LLM 正式进入了 self-play RL 范式时代。
o1 的发布只是 AGI 下半场的开始,我们也相当期待接下来 Anthropic Claude 3.5 系列新模型的发布,Claude 3.5 和 o1 的表现会是 RL 进程是否顺利的风向标。
作为关注 AI 最前沿的团队,我们围绕 self-play RL 也已经发布了多篇研究,本期内容是一篇高质量科普,关于 RL 和合成数据会如何帮助模型升级?基于 LLM 的 RL 和 self play 和以前的 RL 有什么不同?模型的 Reasoning 能力提升后会带来什么新机会?等等关键问题都可以找到最完整的答案。
▫️延伸阅读▫️
LLM 新范式:OpenAI o1,self-play RL 和 AGI 下半场
- 更多信息欢迎关注公众号:海外独角兽
▫️AGIX 指数▫️
AGIX 指数是拾象设计的追踪 AGI 科技革命的指数,是我们在全球科技上市公司中精选出的“高 AI 纯度”公司的组合。AGIX 指数是定位 AI 进程的坐标,也为投资者捕捉 AI-alpha 提供了一个价值工具。