E152|对话NVIDIA和五源资本:“具身智能”能带领这波机器人热走多远?

E152|对话NVIDIA和五源资本:“具身智能”能带领这波机器人热走多远?

58分钟 ·
播放数19572
·
评论数25

视觉、语言理解等多模态大模型和仿真训练技术的结合像是给机器人打了鸡血,让它们变得越来越聪明,行动能力越来越强,越来越像人。 “具身智能”的出现,让机器不再仅仅是被动的计算设备,而是能够主动与物理世界互动的智能体。

从创业公司到科技巨头,从软件平台到硬件开发,这场机器人竞赛的参与者越来越多。从特斯拉的Optimus到波士顿动力的Atlas,这些类人形机器人展现了无与伦比的交互能力,实现了从视觉到动作的端到端神经网络闭环。这些进展似乎预示着“莫拉维克悖论”的终结,即机器人在感知和运动任务上的困难正逐步被克服。随着技术成本的降低和成熟度的提高,人形机器人的商业化应用是否已近在咫尺?在这场竞赛中,哪类玩家能够抢占先机?

本期《硅谷101》邀请到了NVIDIA中国区机器人业务负责人李雨倩 (Lily Li) 和五源资本董事总经理陈哲 (Peter Chen),与大家分享他们对机器人行业的见解,讨论AI加持下的机器人行业有哪些新的工具和技术,还需要经历哪些挑战,才能真正实现规模化和商业化。

【主播】
泓君Jane,硅谷101创始人,播客主理人
【嘉宾】
李雨倩 (Lily Li) ,NVIDIA中国区机器人业务负责人
陈哲 (Peter Chen),五源资本董事总经理

【你将听到】
03:32 大模型、仿真训练和巨头的入场加速了复杂形态机器人的发展
06:19 SayCan,PaLM-E,RT-2等大模型是突破的关键
08:58 NVIDIA做机器人早有积累:从训练、仿真到推理
15:52 大火的“具身智能”关键在于智能体与外界有交互
21:14 机器人一定要像人吗?有时三个手臂更实用,但“人形”是人类文明的形象承载
26:14 中国的机器人开发者最关心什么时候可以用上GR00T
31:31 物理世界 or 仿真平台:不管在哪里训练机器人,都离不开真实世界数据
37:03 泼个冷水:通用机器人尚无商业化案例
38:49 垂直品类的机器人主要在扫地、仓储搬运、无人机
45:37 现在做通用机器人,难度大于在2005年做特斯拉
46:15 十年:当通用机器人商业化时间超过一家基金的存续期
47:57 让机器人“学会拿杯子”就可以拿诺贝尔奖
51:18 各有所长:中国领先供应链和垂直落地场景、美国擅长探索通用能力
55:10 做机器人要有长期主义心态,在低谷期建立复原能力
56:37 “技术泡沫”也意味着顶级聪明人的聚集和新的商业机会

【相关音频】
E113 | 大模型来了,但机器人研究依然很难,商业化更难

【相关补充信息】

具身智能
Embodied Artificial Intelligence,是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。1950年,图灵在其为人工智能奠基、提出图灵测试的经典论文《Computing Machinery and Intelligence》的结尾展望了人工智能可能的两条发展道路:一条路是聚焦抽象计算(比如下棋)所需的智能,另一条路则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。这两条道路便逐渐演变成了非具身和具身智能。

Project GR00T
NVIDIA 于今年3月发布的人形机器人通用基础模型,GR00T 驱动的机器人(00代表通用机器人00技术)将能够理解自然语言,并通过观察人类行为来模仿动作——快速学习协调、灵活性和其它技能,以便导航、适应现实世界并与之互动。

PaLM-E
PaLM-E是一个由谷歌和柏林工业大学在2023年共同提出的具身多模态语言模型(Embodied Multimodal Language Model)。这个模型能够将现实世界的连续传感器模式直接纳入到已经预训练好的大型语言模型中,从而在单词和感知(words and percepts)之间建立联系,其核心设计理念是将连续的、具身的观察(如图像、状态估计或其他传感器模式)注入到预先训练好的LLM的语言嵌入空间中。

PaLM-SayCan
谷歌研究团队于2022年提出的一种机器人学习算法,结合了大型语言模型与预训练的机器人行为,机器人充当语言模型的“手和眼睛”,语言模型则提供关于任务的高级语义知识。这种方法使得机器人能够根据自然语言指令执行复杂的物理任务,同时确保这些任务在特定的真实世界环境中是可行的。

Google RT-1/RT-2
由Google的机器人研究团队开发的先进机器人学习模型。RT-1(Robotics Transformer 1)是一种视觉语言行动(VLA)模型,RT-2是其进化版本,目标是训练一个端到端的模型,该模型可以直接从机器人的观测到动作,同时利用大规模预训练视觉语言模型的优势。RT-2通过对互联网级别的视觉语言任务进行预训练,然后在真实世界的机器人任务上进行微调,从而获得更好的泛化能力和涌现能力。

【监制】
杜秀
【后期】
AMEI
【Shownotes】
杜秀
【BGM】
Swerve Space - Lama House
Elephanti - Osoku

【在这里找到我们】
公众号:硅谷101
收听渠道:苹果|小宇宙|喜马拉雅|蜻蜓FM|网易云音乐|QQ音乐|荔枝播客
海外用户:Apple Podcast|Spotify|TuneIn|Youtube|Amazon Music
联系我们:podcast@sv101.net

展开Show Notes
12:33 女嘉宾讲话有点抓不住重点… 且会说一些专业词汇如sim2real但又不解释。主持人非常厉害,3句话把仿真这个事儿讲清楚了。作为科普其实不需要列举太多专业例子的我个人认为。
Eason不来也不去:一个不习惯于对非业内人士言说的人(女嘉宾),一个习惯对公众表达的人(主持人),大概是这样一种区别。能够把话说到让非业内人士也听懂是一种能力,挺难的能力,需要刻意练习的。
HD226642y:还行,从业者都能听懂,甚至觉得说的不够深入
4条回复
HD226642y
HD226642y
2024.5.28
13:47 Isaac sim这段说的像广告一样。实际用下来其实Isaac sim并没有那么厉害,你的仿真环境是否和真实完全一致其实还要看你手调材质和纹理贴图,而且Isaac sim对硬件要求之高,文档之差,数学参数对齐之错误,导致大部分的相关业务还是做机器人任务的酷炫可视化,真的开发还是用以前的工具
这一期可以说获得三个判断:第一是虽然近期AI有巨大进展,让机器人方向又热了起来,业内视通用人形机器人是终极目标,但是目前从技术和商业来看仍处于非常早期阶段,短期资本和产品需求都不会太好。第二是中美两国商业化机器人投资方向有所不同,互有优势。第三是人形机器人可能商业化应用主要在汽车制造和物流仓储行业。
另外这一期女嘉宾感觉是给自家做广告
赛诺
赛诺
2024.6.06
真是应了那句话,投资资本比产业本事还懂,Peter vs Lily
小救星w
小救星w
2024.5.29
41:25 机器人创业需要兼具软件算法、硬件、商业市场化等能力,创业门槛非常高,完全不低于新能源车
咸鱼饺子
咸鱼饺子
2024.5.29
😅互联网黑话真的听得人头痛…
24:29 泓君这点实在说得太好了。很有关怀 而我以前从没从这个角度思考过
Good猫呢:就差直接点宇树的大名了😂
卡不卡机
卡不卡机
2024.5.29
NV 嘉宾说的话把专业术语去掉以后就没内容了,不太适合大众。解释什么是具身智能那块儿,比没解释还抽象:'(
大道有李
大道有李
2024.9.10
38:33 我了解过今年的机器人大会之后,也意识到一个问题,就是现在机器人的商业化场景还是很匮乏的,尤其是通用类机器人。所以我觉得马斯克说明年机器人能量产跳票的概率很大
Jane_iwb6
Jane_iwb6
2024.8.14
从罗马人事件穿越回来,Peter和五源,你们还好吗?
-_H5Il
-_H5Il
2024.7.01
08:14 transformer和chatgpt有什么关系?
cdq_cklR
cdq_cklR
2024.5.30
讲的都很好,高质量访谈
Elvis928
Elvis928
2024.5.30
我觉得自动驾驶和人形机器人这块发展的可能还是不够快,像当时出现新冠疫情时,包括新冠基因测序还有疫苗研发,那个速度真的是举全球之力,如果有这样举全球之力干的事,会不会像三体中说的有突破呢
jaNs0n
jaNs0n
2024.5.29
100h+来报到,哈哈哈哈😂~~
JZ_LI65
JZ_LI65
2024.5.28
00:07 啥内容都还没听呐,声音太甜了!🍭
谁说过巨身智能都是骗局
这期听着有点深夜电台广告的感觉,李主任给咱们说说这用了Isaac sim以后的好处
小和平鸽
小和平鸽
2024.5.28
17:45 就跟郭达斯坦森在小品里说的一样,“我真想给自己两个大嘴巴”。然后蔡明吐槽说@你们人类真虚伪” 😄
CC023
CC023
2024.5.28
谢谢。
ccYever
ccYever
2024.5.28
前排🤖