具身智能,简单说来就是具备人工智能的机器人。传统机器人在发展遇到瓶颈后,因为大模型,有了新的可能性。业界不少人认为通用机器人甚至可能成为未来的主流。
在当下阶段,具身智能的技术难题是什么?会和大模型走同样的迭代路线吗?具身智能也会有自己的 Scaling Law 吗?具身智能商业化前景有多大?五年内会迎来具身智能的 1000 万出货量吗?
本期对谈,极客公园创始人&总裁张鹏,和三位具身智能领域的专家、创业者,一起聊了聊具身智能的技术现状、数据难题和商业前景。
本期嘉宾:
- 张鹏:极客公园创始人&总裁
- 高继扬:星海图 CEO
- 赵行:清华大学交叉信息研究院助理教授 & 清华大学 MARS Lab 负责人
- 许华哲:清华大学交叉信息研究院助理教授 & 清华大学具身智能实验室负责人
本期播客为对话的剪辑版,剪辑/后期:孟获。
时间轴:
00:04:41 具身智能的概念
00:11:01 双足机器人代表着什么技术变化?
00:14:09 如何理解通用机器人?
00:18:45 聊聊具身智能在控制层面的进步
00:25:37 包含Tesla在内的科技巨头们做了哪些事情?
00:40:28 创业公司的机会在哪里?
00:47:20 具身智能公司需要怎样的技术人才?
00:57:39 数据是核心壁垒吗?
01:01:59 存在机器人的 Foundation Model 吗?
01:09:44 从研究到产品落地需要几步?
01:20:30 数据的收集应用该怎么做?
01:24:38 具身智能领域,创造价值的公司就是要端到端?
01:27:17 聊聊上下游产业的状况
01:30:22 具身智能和自动驾驶有哪些异同?
01:36:06 何时会诞生1000 万出货量的机器?
01:44:20 家庭机器人的畅想与技术阻碍
相关阅读:
一文读懂具身智能:巨头在做什么、创业公司机会在哪、数据和 Scaling Law 难题怎么解决?
关于我们
这里是极客公园旗下的科技创业者社区FounderPark出品的AGI 系列播客节目「AI局内人」,围绕 AGI 相关领域的技术发展、产品方向以及新的商业模式进行探讨和交流。
Founder Park 正在搭建AI Native 的产品交流群,群内聚集着致力于在大模型相关领域创业的创业者、产品经理、研发工程师、对大模型技术和场景应用开发进展感兴趣的学者及投资人。
扫码添加社群助手,拉你进群:
属于机器人的foundation model并一定需要是端到端的形式,因为包含视觉语言输入和动作输出的多模态数据(VLA)其实非常少。单个模态的数据互联网上有很多,比如说图文,但是这三个模态组合在一起的少之又少。
所以一种解决思路是将端到端的任务进行模块化的切分,这个切分并不是说单独去做每一个子任务,而是通过合理的切分,让每个模块能够有足够多的数据来训练。比如视觉和语言可以放在一起训练(VLM模型),控制模型也可以单独来训练。充分的数据供给可以支撑子foundation model的开发。
PS: 播客收音有点小,建议优化一下