AI Agent 智能体真相和未来 | 硅谷徐老师对话英伟达、DeepMind大模型专家（上）

74分钟 ·2年前

24617

年初火爆一时的斯坦福 Smallville「虚拟小镇」，现在宣布正式开源。硅谷人正在 all-in（全力投入） AI 智能体，希望能够创造出一个真实存在，又让人惊喜的「西部世界」，甚至让 AI 智能体们走入寻常人家，为人类的生活和工作效率带来巨大提升。

本期「科技早知道」与「OnBoard!」串台，由硅谷徐老师和合作主播 Monica 共同主持，邀请了曾在 OpenAI 工作和实习，从事 AI 智能体、大模型研究领域的两位大牛参与录制。他们分别是英伟达高级 AI 研究科学家 Jim Fan，和谷歌 DeepMind 研究员戴涵俊。

AI 智能体何时能够进入我们的生活，面临哪些挑战？为什么当今的大模型更像是「炼金术」？ Llama 2 为何刚一发布就刺激大量创新出现？在 AI 研究的道路上，如何避免被「贫穷限制了想象」？如果你想通过硅谷 AI 一线精英从业者那里了解未来即将发生的事情，这期节目一定不能错过。

（考虑到节目时间总长，分为上下两期发布，你现在听到的是上半期。下半期将于次日发布。由于话题专业性和嘉宾表达习惯，在本期节目中你可能会听到更多英文术语，请听友见谅。不明白的可以在小宇宙上留言提问，我们会尽力回答！）

CS PHD 的车牌
图：CS PHD车牌

主要话题
03:55 嘉宾个人+主攻方向/项目介绍
11:48 Agent（AI 智能体）应该具备哪些核心构成？
16:00 在企业场景里，有哪些和 AI 智能体有关的尝试？遇到哪些挑战？
21:43 从 AINPC 和斯坦福虚拟小镇，看 AI 智能体技术在游戏方面的创新进展
31:19 AI 写代码的精准度，何时能够追上人类工程师的水平？
39:11 在充分利用 AI 智能体的未来，软件的世界会被怎样改变？
47:48 AI 智能体的市场，会出现「赢家通吃」现象吗？
54:20 Meta 的 Llama 2 问世，为何立刻刺激了大量大模型创新？
61:01 你的论文，OpenAI 半年前就玩过了：开源和闭源模型差距只会越来越大
63:57 大模型像炼金，顶级人才都在 OpenAI、Google、Anthropic 之间流动
67:57 基础模型越来越强，特定领域模型的壁垒还存在吗？

本期人物
Jim Fan，英伟达高级 AI 研究科学家，曾在 OpenAI 实习，博士期间就读于斯坦福大学
戴涵俊，Google DeepMind 研究员，曾在 OpenAI 工作，博士期间就读于乔治亚理工大学
硅谷徐老师，硅谷连续创业者、人工智能高管、斯坦福商学院客座讲师，「科技早知道」主播｜推特：@H0wie_Xu｜微信公众号：硅谷云｜ AI 英文博客：howiexu.substack.com
Monica，播客节目「Onboard!」主理人，美元 VC 投资人，前 AWS 硅谷团队+AI 创业公司打工人，公众号：M小姐研习录 (ID: MissMStudy) 主理人 | 即刻：莫妮卡同学

延伸阅读

关于多模态：给静态大预言模型增加视觉能力的论文

关于openai早先用game来解锁泛化能力的论文

往期节目

超级独角兽 Databricks 联合创始人：从对决 Snowflake，到人类如何与 AI 共存｜ S7E21 硅谷徐老师

通用人工智能离我们多远，大模型专家访谈｜S7E11 硅谷徐老师 x OnBoard!

AI 大神贾扬清离职阿里后首次受访：创业为什么不做大模型｜硅谷徐老师 S7E07

加入我们
声动活泼正在招聘「节目监制」和「声音设计师」，查看详细讯息请点击链接。如果你正准备在相关领域发挥专长、贡献能量，请联系我们。

欢迎加入声动胡同会员计划
成为声动活泼会员，支持我们独立而无畏地持续创作，并让更多人听到这些声音。
支付 ¥365/年成为声动胡同常住民。加入后，你将会在「声动胡同」里体验到专属内容、参与社群活动，和听友们一起「声动活泼」。

在此之前，也欢迎你成为声动胡同闲逛者，免费体验会员内容、感受社群氛围。
了解更多会员计划详情，我们在声动胡同等你。

幕后制作
监制：杜晨、刘灿、东君、闻晓（实习）
后期：迪卡普里鑫、六工（实习）
运营：瑞涵、Babs
设计：饭团

商务合作
声动活泼商务合作咨询

关于声动活泼
用声音碰撞世界。声动活泼致力于为人们提供源源不断的思考养料。
我们还有这些播客：声东击西、What's Next｜科技早知道、声动早咖啡、商业WHY酱、跳进兔子洞、反潮流俱乐部、泡腾 VC、吃喝玩乐了不起
如果你想获取热门节目文字稿，请添加微信公众号 声动活泼
如果想与我们交流，欢迎到即刻找到我们
也期待你给我们写邮件交流，邮箱地址是：ting@sheng.fm
如果你喜欢我们的节目，欢迎打赏支持，或把我们的节目推荐给朋友

Special Guests: Jim Fan, Monica, and 戴涵俊.

展开Show Notes

大河

2023.8.17

05:13 高频的中英文夹杂交替，能懂，听起来怪怪的

PJ0131:不是一个圈子，没必要强融合

英杰是一只奶牛猫:我刚开始听这期节目时，就预见会有这条评论😂果然

共15条回复

Cindia

2023.8.17

CS PHD 太可爱

陈不撕

2023.8.17

听完了，嘉宾们的分享很精彩，主要是在模型竞赛和agent未来发展方向上做了一些假设和讨论。并且对于AI应用更多关注在助手和行业工具上。游戏上虽然提了GA小镇和mc的实践，但是那两个实验里玩家的可玩性和参与性还是太弱了，达不到游戏和付费的标准。我们自己是一个AI娱乐应用/游戏的创业团队，所以会更关心这一块的话题。工具向的AI产品可能很容易被成熟平台逐渐覆盖和代替，主打一个时间差。娱乐向的机会大家聊得比较少，期待下一期嘉宾们可以多聊聊一些硅谷有趣的应用，尤其是那些模型技术并不frontier，但是已经在app store霸榜和盈利的小应用。

丁教Diane

:收到😉

AZ111:请问您这边创业团队还缺人吗，方便给个微信吗

Ghost#1211

2023.8.19

研究背景很强大的嘉宾，感谢分享！个人觉得中英夹杂不影响收听和理解，表达也很自然，不用硬改说法

Charles_Zhang

2023.8.25

08:33 Agent的核心，我理解是planning（有state有action），而GPT的问答很多时候只是reasoning（只有state）。

我们可以把action space grounding到state space（都是语言），然后再通过API+tool的形式来具体执行action。

所以在Game AI 和 Embodied AI，把LLM当成大脑来做Planning，这是一个Agent我很接受，
但如果只是写代码的copilot或者能做数学题/写诗的llm也看成一个agent，我是持保守态度的。

晓风暮笛

2023.8.17

非常有收获，agent在包容性强的场景中一定能发挥，智能体能够在各种期待创意决策的地方给人耳目一新的感觉，也能在交互的时候让我们反思自己已经固化的思想。不过agent方向目前的需求真的好少，效果不确定性比较大，感觉都在观望，想在深圳找个基于LLM做agent的相关工作好难，继续修炼把。

杜晨_光谱:加油！

Charles_Zhang:很多创业公司，大厂都在做啊。MetaGPT就是深圳创业公司做的

共3条回复

Charles_Zhang

2023.8.25

15:20 Learning to Model the World with Language https://arxiv.org/abs/2308.01399

晨萱-语迟者说

2023.8.17

两位曾在OpenAI工作过的大牛🐮！难道国内那些搞大模型的公司不赶快去数千万年薪挖人吗？可见国内所谓7，80家搞大模型的公司，绝大多数就是骗局

Whovia:话不是这么说，人家未必愿意回来，毕竟给的资源不一样。硅谷那边天使投很多，而且新技术发展更快，人和人交流也多，国内还是盘子小。

晨萱-语迟者说:对，不是钱的问题。换做我，给更多钱也不回来😜😀。话说某宇宙大厂采取的恶心方式就是用黑白两道威胁海外华人在老家的父母妻儿，于是竞对的华人团队就涣散了。希望这一幕不要出现在硅谷华人科学家身上……

0xE0F

2023.8.19

徐老师 yyds

Sssabrina96

2023.8.17

08:06 哈哈哈开这个车牌是不是不敢超速，容易被pull

Dicaprixin

2023.8.17

喜欢听这种圆桌氛围

dragon_lei

2023.12.22

个人观点：真正具备自己搭建开源大模型并Fine Tuning出专有模型的公司目前还是少数，就好比20年前具备自己通过Apache+PHP+HTML搭建网站一样（类比不一定非常恰当），所以目前还需要大量专业的中间服务商；AI agent目前在toB领域非常需要，但目前还有不小差距，比如工业机器人，懂模型的不懂控制，懂控制的不懂模型，还有一段技术科普和模型完善的过程，这块空间巨大，意义非凡！

榛橡

2023.8.29

cvpr

Charles_Zhang

2023.8.25

08:27 认可Jim Fan大佬说的，补充一个关于agent有一个classical的定义：Anything that can be viewed as perceiving its environment through sensors and acting upon that environment through actuators. —— Artificial Intelligence: A Modern Approach

我愿称这一代的AI Agent为LLM Agent，而上一代范式是RL Agent。RL基于learning的框架可以让Agent习得技能，但是Agent本身是缺乏对于问题和技能的认识的，所以会出现一些convention（特定的行为模式）；
而基于LLM的Agent，基于common sense 和 reasoning的能力，使得LLM Agent 可以做到真的尝试thinking，同时具有zero-shot泛化性的能力。

思考下一代的Agent的范式，我认为可以基于LLM当前的不足
- LLM能否基于多模态的输入更好地理解问题；
- LLM 被认为是一个缸中之脑（基于一个图书馆知识的婴儿），能否通过和环境（真实世界or游戏世界）的交互，做到“知”“行”合一；