解读斯坦福Aloha机器人：视频为何是“假的”？能做家务的机器人还有多远？-Vol41

脑放电波

90分钟 ·1 年前

13056

本期节目（S02E20）我们关注：

-刷屏的斯坦福机器人研究（Mobile-Aloha）都有什么亮点？为什么刷屏的新闻竟然是“假的”？理解一些技术原理：机器人怎么和大语言模型结合；具身智能具体是怎么回事儿；

-为什么用上论文里面的机器人这么难？为什么说机器人行业“不像朝阳行业”

-我们距离家里有一台机器人，还有多远？哪些技术是关键？

我们和 AI 相关的节目，欢迎点击、搜索关键词收听：GPT并非替代你/OpenAI发布会 / 611款 AI 生产力工具 / 论文：1016 种职业，哪些将被 AI 替代

欢迎在评论区留言告诉你对于“通用机器人”的畅想

对于节目话题的更多观点，获取更多未呈现在节目中的扩展阅读，欢迎添加脑放电波小助手微信（BrainAMP01）加群参与讨论。

主播及嘉宾：

托马斯白：脑放电波主播，15+年科技行业从业者，科技媒体特约作者

Nixon：脑放电波主播，XR产品经理、前机器人产品经理、前科技媒体记者

花花：自动化解决方案从业者，毕业于 CMU 机械工程系，网站:fujunruan.com

剪辑：水仙plus

时间轴

Part1：刷屏的斯坦福机器人（Mobile-Aloha）研究都有什么亮点？为什么刷屏的新闻竟然是“假的”？理解一些技术原理：机器人怎么和大语言模型结合；具身智能具体是怎么回事儿

02:42 - 斯坦福的Mobile Aloha机器人项目有哪些功能和亮点？

斯坦福机器人（Mobile-Aloha）的论文和网页arxiv.org

刷屏内容：Mobile ALOHA: 你的管家机器人_哔哩哔哩_bilibili

08:02 - 解释Mobile Aloha的“demo模式”

自动化的技能

克隆模式

13:07 - Transformer模型在机器人技术上的变革

18:28 - 波士顿动力的7万美金机器狗（一个机械臂）

18:37 - Mobile Aloha有哪些“假”的地方？

Mobile ALOHA搞笑失败集锦_哔哩哔哩_bilibili

24:22 - 除了Aloha，近期还有哪些值得关注的机器人项目？

24:31 - Palm机器人模型的最新进展

23年3月的谷歌Palm-E，具身智能+多模态 palm-e.github.io

24:58 - 谷歌在机器人技术上成果

谷歌的前沿机器人研究 deepmind.google

27:00 - 什么是具身智能？

关于“具身智能”的比喻：你不可能依靠学动作拆解去模仿库里投篮，从而提升投篮技巧

33:57 - 理解具身智能的能力

44:47 - 为什么大家都在做人型机器人？为什么不是别的形态？

Part2：为什么用上论文里面的机器人这么难？

52:37 - 机器人进入生活“跨越鸿沟”难

割草机器人伤害动物：www.dailymail.co.uk

没什么用的家庭机器人：Anki Cozmo、SAMSUNG’S BALLIE、索尼机器狗

01:14:14 - 机器人公司商业模式

54:45 - 酒店服务机器人案例

55:07 - 专业机器人(扫地、清洁等)现状

56:29 - 机械手难以批量生产销售

01:02:12 - 机器人公司商业模式多有问题

餐饮机器人商业模式：依赖集成商，要玩租赁

财务报表举例：库卡经营利润率为2.8%（毛利润）

被到处转卖的波士顿动力

受顶级资本关注的公司营收规模普遍在10-20亿人民币以内（Revenue），人员规模在400-1000人左右，因为研发成本高，总体处于亏损状态。盈亏平衡需要做到20亿元。

Part3：服务型/通用型机器人，还有多远？

01:22:20 - 关键技术：数字孪生、大模型、具身智能

01:28:13 - 一些基础研究：如何通过“触感”来识别材料？《Design of a Biomimetic Tactile Sensor for Material Classification》arxiv.org

脑放电波往期节目精选（搜索关键词可收听）

苹果特权：苹果供应链迷思 / 苹果广告底层逻辑 / iPhone 15 和它的前任们 / 苹果零售店

节目中用到的音乐

来自 monkeyman535 的 90's Rock Style，地址 freesound.org

来自 kjartan_abel 的 Berlin Town，地址 freesound.org

基于 CC BY 4.0 DEED 使用

脑放电波是一档关注科技前沿、品牌营销和个人成长的谈话类节目。每期带给您一个有趣有据的话题，帮您在信息严重过载的现代世界小幅自我迭代。您可以在小宇宙、苹果播客或者其他泛用型播客客户端搜索“脑放电波”找到并关注我们，如果您对本期节目有任何疑问，欢迎您给我们留言，如果您觉得这期内容对你有所帮助，欢迎您关注点赞收藏转发，这对我们非常重要。

展开Show Notes

Nixon_Hu

2024.1.21

置顶

-刷屏的斯坦福机器人研究（Mobile-Aloha）都有什么亮点？为什么刷屏的新闻竟然是“假的”？
-理解一些技术原理：机器人怎么和大语言模型结合；具身智能具体是怎么回事儿；
-为什么用上论文里面的机器人这么难？为什么说机器人行业“不像朝阳行业”
-我们距离家里有一台机器人，还有多远？哪些技术是关键？

Nixon_Hu

:节目的热乎劲儿还没过，ALOHA就发布了迭代版本，动作精细度显著提升，成本显著降低，boom！https://mp.weixin.qq.com/s/nr-DEPyclWkJ5OPXhKn_SQ

Kantdefans

2024.1.23

35:21 正好最近在写相关领域的论文，讲一个很著名的叫做橡胶手实验。具体来说，就是被试会把自己的一只手放桌上。实验者在实验者正中间放置一个与真手相似的橡胶手，在两只“手”之间放一个档板使被试无法看见自己真正的手，只能看见橡胶的。随后，先用刷子同时刷被试的真实手和被试手来建立联系，个体会报告一种对假手的拥有感。甚至在威胁假手（碰击假手）后，个体会感觉有强烈的生理反应。这个实验就印证了我们延展认知的现象。

Kantdefans:补充一下，主播所谈的具身认知和后面说的“开车”的例子是不同的，开车的例子应该属于我上面所说的延展认知。具身化更为强调环境和身体通过行为产生的能力如何成为认知的核心，跟现象学关系更近，实证的话比如叼笔实验（牙齿咬出笔比嘴唇咬住笔由于更接近笑容的行为模式所以使被试报告出更多的幽默），最通俗来说就是身体如何影响认知和思维。

Nixon_Hu

:不愧是你，康德

共3条回复

Mike-Wu

2024.1.22

55:44 泳池机器人🤖️…齐马蓝吗？哈哈

Nixon_Hu

:开始进化了

Mike-Wu:伟大的艺术家即将诞生😏

郝允莱

2024.1.24

1:02:52 1:02:46 这里让我想起什么是可接受的风险，专业风险评估人士和普通人的观点还有学术上的观点不一样。在学术上可能98%就是某种危害的可能性很小，就将这项技术描述为低风险（安全的）但是对普通用户一旦发生危险，就是致命的，灾难性的，比如飞机，自动驾驶之类的。
什么是“可接受的风险”？对谁来说“风险”可接受？风险如何分配？谁从中受益谁承担风险？

郝允莱:来自《法律3.0规则、规制和技术》这本书中的一些观点

托马斯白

:这个好👍

Vivian_Dai

2024.1.22

很实在的内容对机器人行业的讲解，感谢🙏也解答了我一直以来的困惑，大模型对机器人行业的作用到底是什么，那在大模型之前的cv 应该也有会对影像进行语义分析，这和大模型有什么区别呢？这块感觉可以深挖，可否专门做一期节目来聊聊呢

Nixon_Hu

:感谢认真的你！这部分忘记在录的时候单独提一下了，cv和大模型的主要区别还是训练、执行任务上通用性有差别。比如一个堆货的机器人，核心能力就是依靠cv把东西放到架子上，他的算法模型是围绕“堆货所需要的移动”来进行的。但有了大模型之后，训练和执行都可以围绕多项任务来

娃娃一:没有大模型之前语义分析的算法是人做的，有了大模型之后算法是大模型自动发现的，而且这自动发现的有时候比人通常的做法还优秀。

Sssmiley

2024.1.22

好难得的广播内容👍

Nixon_Hu

:感谢反馈

托马斯白

:广播这个叫法很复古

共4条回复

林起byte

2024.1.23

1:08:36 说到迪士尼，最近他们有展示万向跑步机，还是想期待一下和vr结合的感觉

Nixon_Hu

:哈哈哈哈那个还在迪士尼的lab里面

HD339923m

2024.1.23

24:24 爱听！from放假的理工生我之前参加过机械臂的项目难啊

Nixon_Hu

:感谢反馈

郝允莱

2024.1.24

38:38 26:49 具身智能：sense-plan-act；sense通过传感器

具身智能类似于我们的身体和大脑的对话；通过不断试验找到最正确的办法

机器和机器人（具有具身智能的机器）不同的区别：
机器把很多一样的东西做成另外一堆一样的东西；机器人可以把不同的东西都做成应该做成的样子。

我们知道我们身体的每个部位的感觉，具身感，具身感延展到我们使用的工具（比如我们开的车）（比如残疾人义肢）

Vivian_Dai:机器哥机器人的区别的观点很有意思啊，确实，我们对于机器人朴素的想象就是“通用”，应该什么都能干，也就是你说的“把不同的东西都做成应该做成的样子”

Nixon_Hu

:学习委员上线！