EP 44.【AI年终特辑3】具身智能深度对话：从学术到产业，机器人的ChatGPT时刻来了吗？

OnBoard!

111分钟 ·1 年前

8780

今年 OnBoard! 最后一期压轴上新！今年要谈论人工智能，怎么能错过这么一个重要的话题：机器人与AI的结合，或者说，Embodied intelligence, 具身智能。

大模型的思路是否能带来机器人的ChatGPT时刻？机器人要具备泛化能力，有哪些进展又有哪些瓶颈？通过机器人让人工智能具备与环境感知和交互的能力，会为通用人工智能AGI带来哪些新的想象空间？

Hello World, who is OnBoard!?

今年下半年以来，尤其在国内，已经有不下十几家具身智能创业公司涌现。这一轮热潮中，从学术到工业落地，如何分别噪音与真实？以前将AI应用于机器人的尝试，比起这次的技术突破，又有哪些相同与不同？

这次的嘉宾阵容，真是太适合回答这些问题了：

我们邀请了 Google DeepMind 的研究员Fei Xia，Deepmind 跟具身智能相关的最重磅的几个研究，从SayCan, PaLM-E，到 RT2，他都是核心参与者。还有来自国内头部机器人创业公司高仙机器人的深度学习总监 Jiaxin, 带来产业界的视角。以及 UCSD 的研究员 Fanbo Xiang，他参与的 Maniskill，SAPIEN 等与模拟环境相关的研究，都在学术前沿。

我们对AI泛化能力在机器人领域的落地进行了深入的讨论，也有不同观点的碰撞，精彩纷呈。

其实这一期的录制已经过去了几个月，阴差阳错成了今年的压轴，也算是对于OnBoard 全年的一个圆满句号，又是整个OnBoard 旅程小小的逗号。新的一年，不论世界如何起落，我们都选择相信未来有希望，珍惜每一次对话，赞美每一个在未知中选择的勇士。

Enjoy!

嘉宾介绍

Fei Xia, Google Deepmind 机器人团队资深研究员，PhD @Stanford University；PaLM-E, PaLM-SayCan, RT-2 作者

Jiaxin Li, 高仙机器人深度学习总监，ex字节跳动研究员，PhD @National University of Singapore

Fanbo Xiang, PhD @UC San Diego；ManiSkill, SAPIEN 作者

OnBoard! 主持：

Monica：美元VC投资人，前 AWS 硅谷团队+ AI 创业公司打工人，公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻：莫妮卡同学

我们都聊了什么

02:47 几位嘉宾的自我介绍，主要的研究领域

05:34 大家最近看到的与具身智能相关的有意思的研究和行业进展

14:23 自动驾驶领域的生成模型，如何保证符合物理规律？

18:34 如何定义具身智能？什么是测试机器人AGI 的“咖啡测试” ？

27:59 梳理 Google Deepmind 机器人领域核心研究脉络：大模型对具身智能带来怎样的影响？

40:29 Fanbo 在做的 low level 控制相关的研究，如何与大模型相结合？

45:39 具身智能的实现目前有哪些主要技术路径？我们什么时候可以达到共识？

50:40 从产业落地的角度，如何看待大模型对机器人领域的影响？有哪些现实的挑战？

67:37 什么时候需要机器人具备通用能力？我们需要端到端的具身智能吗？

72:47 对 Scaling law 的争议：在机器人领域能复现吗？如何平衡长期通用性研究和短期商业落地的需要？

90:41 在具身智能系统的设计中，如何考虑加入人机互动的因素？

96:29 硬件的发展会如何影响具身智能的发展？

101:18 未来3-5年，大家最期望看到具身智能领域实现怎样的突破？有怎样值得期待的未来？

重要论文和词汇

PaLM-E: An Embodied Multimodal Language Model

SayCan: Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

RT-1: Robotics Transformer for Real-World Control at Scale

RT-2: Vision-Language-Action Models

ManiSkill: Learning-from-Demonstrations Benchmark for Generalizable Manipulation Skills

ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills

SAPIEN: A SimulAted Part-based Interactive ENvironment

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models, by Feifei Li

VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding

Scaling laws for neural language models, by OpenAI

Vision Transformer (ViT) - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

ALOHA: A Low-cost Open-source Hardware System for Bimanual Teleoperation, from Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

The Bitter Lesson, by Rich Sutton

MIT PDDL (Planning Domain Definition Language)

sim2real: simulation to reality

我们提到的公司

Wayve.ai: reimagining self-driving with embodied AI

有鹿智能

LoCoBot: An Open Source Low Cost Robot

宇树科技

欢迎关注M小姐的微信公众号，了解更多中美软件、AI与创业投资的干货内容！

M小姐研习录 (ID: MissMStudy)

大家的点赞、评论、转发是对我们最好的鼓励！

如果你能在小宇宙上点个赞，Apple Podcasts 上给个五星好评，就能让更多的朋友看到我们努力制作的内容，打赏请我们喝杯咖啡，就给你比心！

有任何心得和建议，也欢迎在评论区跟我们互动~

展开Show Notes

摸摸摸摸摸摸鱼

2023.12.30

1:19:52 这位嘉宾牛啊，场面话一点也不说，正面直接硬怼，主持人给的台阶完全无视 😂
就是喜欢这么坦诚的嘉宾👍👍👍

蒋建平Alan:这位嘉宾确实很坦诚，但是就话题展开，用产品落地的标准去challenge前沿探索性的研究，约等于要求公鸡下蛋，强人所难。scaling law的样本数量少的一个原因是能花钱验证这事的公司很少。

王波_podcast:牛个啥呀,他自己就是瞎怼人.自己说的world model 更不靠谱.

共7条回复

Diiiiiiiii

2024.1.19

这是 Onboard！最近质量较高的一期，算是一个对具身智能领域现状的综述，内容比较丰富。对于我这种小白来说，是很好的一次科普。下面是一些个人的 learning。

具身智能领域的图灵测试叫做 coffee test，是 Steve Wozniak 提出的，让一个机器人走入一间没见过的寻常美式厨房，然后做一杯咖啡。机器人需要先在厨房里找到所有做咖啡需要用的设备，比如说杯子、咖啡豆、咖啡粉、勺子等等（需要借助 high level reasoning 来分析语义线索，比如说勺子通常放在炉子旁边的抽屉里），然后通过 low-level manipulation 来完成操作，比如磨咖啡，比如把咖啡粉放到滤纸上。

可见，具身智能的大逻辑可以被拆解为 High level reasoning + Low level manipulation：

- High level reasoning 是指机器如何理解人类的指令（尤其是一些抽象的指令，比如“我饿了”），并转化成一个可以执行的指令。难点在于指令本身可能是模糊的，有不同的 solutions，另外并非每个 solution 都能在机器人上执行。传统思路是是分步来做，在 language model 和 task motion planning 之间找一个平衡，最后给出一个 plan。

- Low level manipulation 是指机器如何与环境交互来完成指令，传统思路是sense+plan+act，先通过各种 Vision 的 Model 去找到抓取点，再通过算法给出移动的Planning，最后再通过 Robotic Control 的算法去完成这个 Task。传统方法对于抓取、开门、拉抽屉这类标准化任务有相当高的成功率，但任务一旦非标或复杂一些就搞不定了，并且泛化性很差。目前主流的方法有两类，一是 Reinforcement Learning，通过和环境交互，去学习应该执行什么样的 policy 才能够拿到更高 reward；二是 Learning from Demonstrations，包括 imitation learning（模仿学习）、Behavioral Cloning（行为克隆）等，可以在一些给定的环境里，对特定的 task 给出一些解，然后让机器人通过这些成功的 trajectory 去构建一些更加general的robot policy。比如前一段刷屏的ALOHA 就是在用模仿学习的方式来完成各种复杂任务，比如炒虾等等，背后都是人类用远程操纵的方法在教机器一些解法。

跳出上述分步走的框架，一个新的思路是端到端的方法，同时完成High level reasoning 和 Low level manipulation，比如 RT2 就是把动作也当成一门新的语言来构建 Vision Language Model，同时理解世界知识、环境和动作，进而产生泛化性，甚至可以完成 Chain of Thoughts 的推理，比如可以理解“帮我从桌上的玩具里抓取一只已经灭绝的动物”这种指令，成功地把恐龙玩具抓出来。这个新的端到端的思路很像 software 2.0 逐渐侵蚀 software 1.0 的过程，随着模型泛化性的提高，software1.0 的各个子模块在逐一被语言模型所替代掉。

目前具身智能领域的局限，首先是数据不足，而 AIGC 的进展有助于解决这个问题，尤其是 3D内容的生成以及 task 生成能力，可以帮助具身智能研究来生成大量的模拟场景与环境，用合成数据的方式来解决数据和素材不足的痛点，类似于自动驾驶中的仿真数据。同时，如果生成过程中使用了Vision Language Model，相当于把生成模型和推理模型统一起来，有助于整体模型的训练与迭代。

另一个局限是泛化能力不足的问题，上面说的端到端的方法正在尝试解决。目前具身智能领域还没有到 transformer 的时刻，更别说 chatgpt moment。因此，这是行业共同努力的方向。

至于高仙机器人的嘉宾所提到的可靠性的问题，我个人认为是落地的问题，现阶段讨论还太早，价值不大。嘉宾提到的端到端不如传统分步走靠谱的问题，个人认为最终的 solution 一定是端到端的，自动驾驶现在已经回到这条路上了。和端到端相比，分步走的过程中加入了太多人为的理解和假设，损失了太多原始信息，注定效果是差的。至于嘉宾不相信 scaling law 的问题 - scaling law 原本就不是一个物理定律，而是一种信仰，是基于经验的阶段共识。它无法被证明，就好像摩尔定律无法被证明一样，纠结在这个问题上没有实际意义。

Jasmine_O1aJ:你确定你是小白，😂

raze0ver

2024.1.01

太干货了，太干了，我喜欢，再干点🔥🔥🔥 如果有赞助支持渠道我一定氪金…

莫妮卡同学

:太感动了！2024年第一天就在听 OnBoard! 可以在每一集下面点击赞赏支持哈哈~

zurrix

2023.12.30

Scaling law确实不能说实证, 但是the bitter lessons 一定要引申到资源本身的运用上有点强词夺理了.

阿诺德

2024.1.06

大规模预训练+微调是个很有前途的范式，sergey levine组已经做出来了，不需要simulator，直接在物理世界试错，二十分钟就能学会走路

不知道QwQ:个人觉得sergey的offline路线未来还得进一步scale up（比如action-free data）才有可能，真要落地必须得zero-shot

不知道QwQ:说实话我觉得关于scaling law吵架挺正常的，今年CoRL还专门针对这个问题举行了辩论，我自己短期内也不太信robotics里有scaling law

共3条回复

王波_podcast

2024.1.03

1:24:18 高仙那个哥们吧,拿工业界的落地怼学界的前沿观察探索,自己还觉得挺爽,不知道咋想的.鸡同鸭讲,根本没和人家一个频道.

丁俊峰_P44c:人家说的很实际真正落地和科研gap巨大

OldPassive

2024.2.20

小助手加不上啦

AI-Nate

2024.1.23

1:28:43 研究者和管理者视角的不同。

谢少平

2023.12.30

不会做美式咖啡的扫地机器人不是 AGI 时代的具身机器人

薛定谔的熊

2024.1.06

1:14:02 不是，这哥们这是在怼scaling law 吗，这有什么好争论的，去看看deepmind 和openai的论文就好了啊，我们可以认为现在openai还活着的唯一原因就是他们发现了scaling law 并确信这是某种真理，然后基于这个才在2020年找的微软的投资。

Mr_Curiosity:我觉得高仙的哥们从产业界角度这么说挺合理的，虽然挺scaling law的那位本身就是deep mind的研究者，他们有一线的数据以及自己的坚持，但论文从来就不是真理啊，从托勒密到哥白尼，他们的论文也只是分享自己对宇宙的少量观测并提出假说，就像现在的scaling law一样。现在AI的研究可以说还在前牛顿时代，没有什么是不能被challenge的，资本的投资也只是人才和模型效果给了他们信心，而不意味着他们掌握了某种真理。

xindong_sT8n:我也觉得质疑挺合理的，因为scaling law确实是在少量的观测点上得到的结论，现在是100b参数级，那未来1000b，100000b能继续涌现，继续带来指数或者线性能力的提升吗？这个是存疑的