全球人型机器人公司里的当红炸子鸡,Figure AI在2月20号发布了最新的Helix人型机器人研究成果(完整视频在这里),Figure AI这家公司在人型机器人领域,在全球的地位相当于大模型领域的OpenAI、人工智能芯片里的英伟达,我的第12期和第21期播客,对这家公司、及其创始人有详细介绍,感兴趣的听友可以去了解更多细节。
本期节目,我将深入剖析Figure的Helix模型,全面覆盖从技术到方法、从术语到实际应用的各个方面。无论你对人型机器人感兴趣但了解不深,还是希望掌握该领域的基本概念和前沿知识,都会在这里找到清晰易懂的解读。
02:02 Helix是Figure这家公司把人形,把机器人领域里面通用的视觉、语言、动作的VLA模型,在人形机器人中,进行了一次完整的创新和实践。
03:12 "自我学习和控制" - “learned control", 是指通过机器学习的算法,来让机器自动去学习如何控制自己的行为。
03:44 Helix实现了人类历史上的一系列的首次。
03:48首先是一个完整的上半身的控制。
04:35 ”自由度“就是关节能让你动几种不同的方式,人类的上半身大概有五、六十个自由度
05:28 其次,Helix还实现了多机器人自主协调工作
06:05 与以往传统的方法不同,Helix使用一组神经元网络的权重、来学习所有的行为。
07:23 Helix模型是跑在机器人本地的、嵌入式的、低功耗的GPU上,而不是云端的集群GPU上,这意味着它自带大脑,能够独立的看、听和动
07:40 在Figure格的这个Helix模型的paper当中,也定义了"人形机器人的新的scaling law".
09:35 要让机器人在家庭当中发挥作用,他们需要能够按需生成智能的新的行为。
10:32 "泛化",就是机器或者是AI在学会一件事情之后,能把这件事用在没有见过的新的情况上。
11:59 如何从VLA模型当中提取所有的、常识的知识,并将其转化为可以泛化的机器人的控制?
12:31 在Helix之前的人型机器人的方法,面临了一个根本性的一个权衡。
15:01 Helix两个互补模型这的设计,相比于现有的方法,提供了几个关键的优势。
15:52 传统的VLA模型实现方法,将连续的动作转换为离散的、有限的控制选项,来简化控制。
16:44 高维度的控制需要更加精准和灵活的控制策略,而传统VLA方法在这类任务上基本上是无法实现的。
17:24 Helix"关注点分离“的做法,不受寻找统一的“观测空间”或者是“动作表示”的约束。“观测空间”,指的是机器人如何看待外部世界;“动作表示”指的是机器人如何表达自己的动作。
18:53 关于Helixd模型的训练数据、和训练方法,Figure也做了详细介绍。
20:15 这里我再解释一下传统机器人训练的数据,作为对比。
25:21 Helix是全程端端到端训练的
25:42 “标准回归损失”,就是衡量模型输出与期望之间的差距
26:12 Helix的优势,在于它的这种通用性,不需要为每个任务专门去训练不同的模型,或者是微调这个系统的特定的参数。
27:08 “时间偏移”是Figure在训练Helix时,加的非常聪明的一招
27:59 说完了训练,再说一下Helix的优化流式推理。
30:31 随着头部和躯干的动作,一方面改变了机器人能够到达的地方,另外一方面,也改变了机器人能够看到的东西,这带来了一个新的挑战。
32:09 “零样本”,zero shot,是机器学习和人工智能当中的一个术语,指的是模型在没有见过某个特定任务或者是样本的情况之下,仍然能够成功的进行推理和执行任务。
33:42 Helix还弥补了互联网规模的语言理解、与精确的机器人控制之间的差距。
34:12 “非结构化的环境”,指的是那些没有明确规定或者是标准化布局的环境。
35:25 “监督数据”,在人工智能领域是指。。。监督数据是用来指导模型去学习正确的输出。
36:07 “非监督数据”没有预先定义的正确答案,模型需要自己从这些数据当中去发现结构模式或者是特征,而不是学习具体的答案或者是目标输出。
37:12 Helix通过单一的、统一的模型,在各种的任务当中都表现出来了强大的性能,无需任何特定任务的示范,或者是针对每一个不同的场景去进行大量的手工编程。

