我是这样用 RL + LLM 做 Agent 的|对谈 Pokee AI 创始人朱哲清 Bill

我是这样用 RL + LLM 做 Agent 的|对谈 Pokee AI 创始人朱哲清 Bill

46分钟 ·
播放数19127
·
评论数48

新年正式第一期,来点新东西。

大家都说 Agent 热,那 Agent 到底是啥、到底为啥热、到底咋做、到底长啥样?

大家都说 RL 是新方向,那 RL 到底是啥,和 LLM 的关系是什么,又能怎么和 Agent 结合?

这期我们就请到了在 Meta 工作了七年的应用强化学习组负责人朱哲清 Bill,讲一讲他是怎么用一种很新的技术路线来做一种很新的 Agent,并且在电商等领域是如何落地的。

最后,我们的 AI 私董会也在持续报名中,目前已经聚集了一批市场上最好的 AI 创始人,欢迎点击链接报名(里面也有目前已加入的成员名单,可点击查看)

人类博物馆】

导游:曲凯,42章经创始人

30 号珍藏:朱哲清 Bill,Pokee AI 创始人兼 CEO,此前 7 年在 Meta AI 做应用强化学习组负责人,并攻读了斯坦福大学强化学习专业博士学位

【时光机】

Part1 强化学习

  • 3:06 我们思考方式已经全面 RL 化 —— from OpenAI 研究员
  • 4:36 Transformer 和 RL 到底是什么关系?又要如何结合?
  • 10:15 RL 解答的是平行宇宙问题
  • 12:35 RL+LLM,就是公认最好的技术路线吗?
  • 14:02 RL 的算法原理类似于「多巴胺刺激」
  • 14:42 在无法清晰定义 Reward 的场景下,RL 还好用吗?
  • 15:12 RL 最强的三个能力

Part2 给 Agent 用上强化学习

  • 18:42 为什么直接用 LLM 做不出规划型 Agent?
  • 20:17 一个有效的 Agent 架构:RL 做核心,LLM 做翻译
  • 23:35 我们做出了一个电商领域的通用型 Agent
    • 24:39 体验相当于一个资深的网站负责人
    • 26:05 原理是让 Agent 通过 self-play 学会使用上千个底层 API
  • 29:43 Agent 当前市场格局:
    • 29:52 Coding Agent 是皇冠上的明珠
    • 30:26 Vertical Agent 遍地开花,但准确性仍是大难题
    • 30:46 通用型 Agent 尚不存在,但 RL 或可迎战
  • 31:17 万物皆可 call API
  • 34:07 一个具体的应用示例:Agent 是怎么帮商家省钱提效的?
  • 39:08 训练成本和推理成本都低得令人发指...
  • 40:33 先定一个小目标:做各行各业的 API 杀手
  • 42:57 对 25 年硅谷 AI 市场的观察和预判
    • 43:11 垂类 Agent 是绝对的热点赛道,融资并不困难
    • 45:29 25 年是 Agent 真正落地的一年

The gang that made this happen】

  • 制作人:陈皮、Celia
  • 剪辑:陈皮
  • Bgm:Mondo Bongo - Joe Strummer & The Mescalero
展开Show Notes
0xaSam
0xaSam
2025.1.31
建议以后可以把一些专家们的黑话或者英文简写,名词解释下放在介绍里。 如果不是想让更多人都能听懂那就算了
rickzhai
rickzhai
2025.1.26
听得出来技术背景真的很强。曲凯的举例和追问能力很不错,要不很多没技术背景的人肯定听的一头雾水。举个不恰当的例子,这个嘉宾就像是llm懂很多东西,但是需要曲凯做rlhf引导出来让大家听懂。
曲凯
:
他中文也真的不太熟练了,又增加了难度,不然应该还能聊出来更多哈哈
小米魔女
小米魔女
2025.1.19
每一次听完都收获满满,虽然不在行业内,对自己学习AI很有帮助. 感谢分享
提到的美剧是’man in the high castle ‘(高堡奇人),有科幻小说,很好看
石建_OEte
石建_OEte
2025.1.19
35:46 电商圣诞节例子,第一步 打折,打几折呢?现在不同商家,根据品类有个人经验,如按照 gm 目标、成本、kpi 要求 等,先 excel 算, 再一群人讨论,老板拍板定,线下找供应商沟通供货再调整等。这些人工经验,怎么通过 RL 去探索呢?这些动作都是没有被数字化的?求教
Zyy_bVp2:这个应该是prompt里要写的,不属于RL探索的范围
RookieStar
RookieStar
2025.1.20
13:24 这里的英语术语是啥,听不清
曲凯
:
plasticity 可塑性
sanbai_
sanbai_
2025.1.21
听完了产生了一些疑问 (仅仅是我个人的疑问,并非质疑嘉宾的技术路线或者专业背景),想和大家探讨:
1. 啥是RL模型?如果指的是模型训练用了RL,那是不是所有的模型都可以说是 SGD 模型?
2. 这个 RL 和 agent 怎么结合的?有一个经过 RL 训练的模型控制 agent,agent 再去调用 API?这个模型是静态的吗?推理过程有 RL 吗?
Jomosis:(非专业人士)1.RL 不是模型,是一种学习的方式。它是需要和解释性模型把具体的文字转化成抽象的数据再给到RL这里。2. 听播客里面的内容是,Agent 如果要应用 RL 的话,是要通过 RL 拆分一件事做事的步骤,预测拆分决策的期望概率,排除掉不可能的,把结果返回语言模型判断这些决策是否合理,然后再往下继续这个预测措施结果的过程。我觉得 Agent 应该是 RL 中拆分决策的那个部分,具体是怎么实现的或许可以查查相关的论文。
sanbai_:可能是我没有表述清楚。1. 我了解什么是RL,只是从来没有听说RL模型这种说法,可能业界有,只是我不知道。2.我了解一般的RL过程,我没听明白嘉宾讲的那个 10M 参数的模型是个什么模型,是用来控制agent 的,还是一个 RM。
3条回复
感谢朱哲清您的分享,非常务实,很有启发
小白有的听不懂…在哪里看文稿呀
海上薇薇安:同。站在用户角度来看,听不懂的转文字我甚至不知道它转得对不对。所以,作用有限。
曲凯
:
可以用通义等转一下哈
看标题就有马上想听完的冲动👍
Patrick_cty
Patrick_cty
2025.1.21
08:57 从r1和kimi新模型来看 嘉宾思想很过时啊
folkwug:他是一个完全RL的思路,整个AI领域过去几十年基本延续了好久,感觉这跟LLM不太冲突(毕竟训练可以不用RL),但RL理论发展出来的这一套环境+反馈的体系应用场合还不少,现在还看不出来就是落后的
小卡小卡:他说了很多人在探索llm➕cot rl的模型架构,只不过自己选择了纯rl➕llm对外接口,这反而说明嘉宾早就看到了长期的方向
Never_B1aL
Never_B1aL
2025.1.18
最近2,3个月更慢了,希望每周更新一次
曲凯
:
哈哈,国内市场不支持🤣产出优秀创业者的速度不够快啊,希望25年能更多些!
萨尔瓦托雷:那你打钱
5条回复
HD47487z
HD47487z
2025.2.24
这期播客反复听了两遍,听完依然很兴奋,主要来自几个点:
1. LLM的理解:LLM作为人类和计算机之间的翻译桥梁和知识库,RL做行为编排,这种LLM的相对定位此前没想过,但是一听到就感觉符合直觉,有点像人即使有经验,在遇到一些特定状况的时候,最好还是去实践试错而不是基于经验脑测一番。
2. 对agent的判断:嘉宾目前切入点是如何基于现有业务解决问题,因此api越完善的领域这事情越容易推进,'信息化-数字化-智能化' 这一行业生产力发展的方式是没法越级的,可能我是程序员,我好期待嘉宾描绘的未来。
3.可见的成果:同时我副业也在用shopify做着不太成功的个卖,听到嘉宾说的把agent用在shopify上可达到的效果很是震撼,站内优化一直是头疼的事情,直接决定订单转化效果,把这事的成本压缩成我只需要对接一个agent对过去的站内维护太降维打击。
4.在这些之上,模式可跨行业复制,训练成本极低,能跑CPU上。
DuRunsheng
DuRunsheng
2025.1.20
类似国内的极略数据吗
00:04 棒,一早上看到了这么好的内容
王宇昕
王宇昕
2025.2.21
这位创始人是不是在产业太久了,知识都过时了……
少辉_qHvj:结合最近的manus,嘉宾倒是看到了更长远的事情,将rl概念从llm里剥离出来,更适合做agent的大脑
FallinSpring
FallinSpring
2025.1.23
26:06 那这个自动调用API的agent是不是也是基于所有的Shopify 插件生态?也就是说提供这些Shopify插件的开发者还是需要的?还是说以后这些开发者可能会被取代?
FallinSpring:27:48 听到答案了,是有潜力抛开其他插件,致力于官方底层API做推理,那确实通用性和前景都很大
HD869910e
HD869910e
2025.1.23
shop什么,没听清
FallinSpring:Shopify海外的独立电商平台
小千哥
小千哥
2025.1.21
学习
python大大:真好学
ChicccoOps
ChicccoOps
1 天前
Bill提到规划由LLM协助生成,放到专业领域中还挺有启发
期待主持人在Manus出来后再做一期Agent的话题