S1E02|Figure 01背后的具身智能:解析VLM、基础模型、硬件与交互

S1E02|Figure 01背后的具身智能:解析VLM、基础模型、硬件与交互

76分钟 ·
播放数657
·
评论数9

【关于播客】

欢迎大家一同加入出埃及记的旅程!关注底层逻辑,剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目,我们会邀请全球顶尖院校的博士生或初创公司的创始人,一起聊聊人工智能等计算机科学或其他交叉领域的最新动态,分享他们的研究工作和相关洞察。

欢迎大家订阅收听,和关注我们的同名微信公众号。;p

【关于本期】

2024年3月13日,Figure AI与Open AI合作推出的Figure 01人形机器人视频在社交媒体上热传。这段长达2分35秒的视频展示了机器人惊人的理解、判断、行动和自我评估能力。对比他们今年2月发布的机器人双腿行走和拿起塑料箱的视频,最新视频展示的人形机器人具有视觉能力并能表述所见画面,并采用端到端的神经网络,在接受人类的提问后,可以在“思索”2~3秒顺畅作答,手部动作的速度则接近人类。从OpenAI 宣布介入与之合作,到今天它们共同推出一个能够自主对话和决策的机器人,只有13天。

在人工智能领域,国际上已有共识,即下一个重要挑战,就是实现具身智能(Embodied Intelligence),即能理解、推理并与物理世界互动的智能系统。全球范围内AI领域的巨头和风投机构的火力在今年也从软件卷入了门槛更高回报周期更长的硬件。我们也在这一期请到了机器人相关领域的三位博士生小伙伴,来跟我们分享机器人背后的视觉语言模型(VLM)、机器人领域的基础模型(foundation model)以及与之对应的精密的人形机器人都是什么?机器人与人的交互和“世界模型”又是怎样的?机器人精密控制的硬件是如何实现的?

【嘉宾介绍】

  • 蔡易林(推特:@Yilin_Cai98):佐治亚理工大学机器人学博士生,本硕毕业于上海交通大学和卡内基梅隆大学机器人研究所。研究聚焦于机器人灵巧操作、软体机器人和医疗机器人。
  • 江振宇(推特:@SteveTod1998):德州大学奥斯汀分校计算机系博士生,师从 Yuke Zhu。本科毕业于清华大学电子系。研究聚焦于机器人视觉和机器人学习。目前在英伟达通用具身智能研究部门实习,参与英伟达人形机器人基础模型 GROOT 研发。
  • 朱昊(推特:@_Hao_Zhu):卡内基梅隆大学语言技术研究所博士生,师从Graham Neubig 和 Yonatan Bisk。本科毕业于清华大学计算机系。研究聚焦于提升AI和人类在现实世界中的合作能力。

【开降落伞】

背景科普

07:25 具身智能和非具身智能的区别?

08:54 现在AI当中的主动交互是什么?具体是如何实现和环境之间交互的?

09:51 机器人的发展有哪些阶段?

11:14 机器人有哪些未来形态或者应用?除了机器人之外,具身智能还有哪些应用?

15:06 具身智能的未来通向何方?

视觉语言模型与基础模型

18:33 如何让机器人可以理解图像和文字?

21:09 什么是视觉语言模型的基石?

22:33 怎样看待Figure 01背后的VLM?

23:30 3D视觉近期在做什么?

27:09 为什么需要人形机器人?人形机器人和其他的embodiment之间存在一些差异吗?这些差异是什么?

32:07 机器人策略的最终形态会是怎样?

33:00 机器人的基础模型的输入输出模态是什么样的?

34:34 机器人基础模型的数据通过什么方式收集?一个具体的数据飞轮可能是什么样的?

模拟交互环境、人机交互与世界模型

37:36 模拟交互环境的优点?

41:13 现有交互环境的类型和评价体系?

45:59 在机器人和人的交互当中,衡量方式是什么,难点又是什么?

49:12 世界模型是什么?

51:00 世界模型可以怎样帮助具身智能?

机器人硬件

52:14 人形机器人的结构设计、硬件是怎样的?应该包含哪些模块?每个模块的特点,设计困难和对应的解决方案都有哪些?

1:00:51 其他机器人形态的传统控制方法有哪些?Embodied AI/是如何参与到对于其他机器人形态的控制当中的呢?

1:04:34 传统机器人的控制架构在做什么?

1:08:04 大家接下来的研究方向?怎样看待具身智能和AGI?

【关于主播】

  • 刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。
  • 徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,incoming Meta 机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型之间的共通之处。

【音乐版权】

展开Show Notes
HD768326s
HD768326s
2024.5.26
很喜欢!刚刚好是我想了解的! 质量很高!嘉宾很棒!讲解很清晰~主持人问题问的也超棒!就是时间太短了!可以出一期医学和人工智能交叉内容吗?很多小伙伴很感兴趣,但是因为是医学生,参会的时候很多汇报跟医学联系都很牵强~拜托啦
刘杰尼
:
没问题!我们尽快加入pipeline~
Sssmiley
Sssmiley
2024.5.02
很好的一期
刘杰尼
:
谢谢☺️
露露大大
露露大大
2024.11.12
提问质量不错
鹿妙妙
鹿妙妙
2024.4.15
🐂🐂
刘杰尼
:
感恩🥹
Yuaaan
Yuaaan
2024.4.14
很用心!
刘杰尼
:
谢谢😭