96: 和楼天城聊 Robotaxi:学习人类优秀司机,让我绝望

96: 和楼天城聊 Robotaxi:学习人类优秀司机,让我绝望

88分钟 ·
播放数20820
·
评论数76

「没进展的 5 年,也是内部技术变革的 5 年。」

两年多前,我们在 Robotaxi(无人出租车)的信心冰点报道过小马智行。那时的标题是:“市场不相信自动驾驶了,但他们还信”。

转眼到 2024 年:百度萝卜快跑 4 月在武汉引起热潮,Waymo 无人车队 8 月在旧金山的日均总单量超过了当地出租车(未计算网约车);年底,又有文远知行、小马智行两家中国头部 Robotaxi 公司先后登录美股。

在特斯拉和 Waymo 的路线对比中,强弱之势也正微妙变化。10 月,马斯克的 Robotaxi 发布会后,Uber 股价大涨 10%;而 1 个月后,当 Waymo 传出进入迈阿密,Uber 股价则跳水 10%。

谁更有希望代表 L4 真的改变人类司机出行网络?华尔街在用钱表态。

这个时刻,我们再次访谈了刚刚完成 IPO 的小马智行 CTO 楼天城。

他完整描述了小马过去 5 年 L4 技术变革:从 Learning by Watching 到 Learning by Practicing。

前者是学习人类驾驶行为的模仿学习,是如今 L2+ 普遍选择的路;后者的关键则是构造一个训练车端模型的虚拟环境,让系统可以自己进化,楼天城称之为“世界模型”。

楼天城分享了与之相关的多个技术洞察:
·世界模型本质不是一个模型,世界模型是车端模型的 factory(工厂),自动驾驶技术的真正差别在于 factory 的精度,而非车载模型的能力。
·Learning by Watching 最多是像人,但像人永远无法做到 L4。
·越是优秀的人类司机,学起来越是反向优化。
·MPI 为 1000 公里的产品不存在,因为它反人性。

过去 5 年,外界看不到 L4 公司的明显进展:MPCI(接管里程)仍在提升,但只要无人化车辆没有大量上路,人们就没有直观感受,技术指标只是冰冷的数字。

但在楼天城的叙述里,外界见不到进展的 5 年,也正是关术变革发生的关键时期。

这些变化,使 Robotaxi 今年得以启动百台至千台级别的规模化运营,也给行业带来了高开低走,又逐渐反弹的波折命运。这不仅考验从业者的理性技术判断,更考验感性的决心,和说服团队一起相信的能力。

“我一直说,大部分人不能坚持不是因为太苦,而是因为受到了诱惑。”楼天城说,过去 8 年,他没有遇到过能和自动驾驶相提并论的诱惑,大模型也不算。

时间线跳转:
·5 年前:瓶颈 →绝望→寻找新路
02:53 2019 年后,L4 的进展难再被感知,规模化无人运营带来了市场水温变化。
11:13 这 5 年:从 Learning by Watching 到 Learning by Practicing
12:30 前者是模仿学习,没法学习驾驶员怎么想
14:27 世界上不存在一个 MPI 为 1000 公里的 L2 产品,因为反人性
16:13 模仿学习的另一个问题是人的双标,AI 司机所以像人依然不满足需求。
19:07 学习优秀司机也不行,甚至是反优化
19:45 这本质是因为模仿学习是开环训练,“我绝望了,才发现闭环是出路”

·搭建“世界模型”
22:03 Learning by Practicing 的闭环训练,是强化学习思路
23:46 学了棋谱再强化(AlphaGo),甚至不如直接从 0 开始强化(AlphaZero)
24:28 感性上的挑战:之前的路线做了 3 年还不错,换路线后前两年追得痛苦
26:19 5 年前开始转向以生成数据为重,这也是世界模型的任务之一
30:36 在虚拟环境里学习,本质是“向未来的自己学习”
32:21 世界模型是车端模型的工厂,自动驾驶进化的关键是工厂的精度,而不是车端模型本身
34:43 Learning by Watching,数据和算力是关键;Learning by Practicing,世界模型的精度是关键

·认为 L2 会覆盖 L4,是还没有越过分界点
35:03 没有谁做了错误选择,L2+和 L4的优化方向不同
36:18 L2 使用 Learning by Watching 没问题,也符合 L2+的规模效应特性
38:51 L2 不能覆盖 L4,L4 也不能取代 L2,真正越过分界点后会发现这是两件事
42:20 小马世界模型的构成:1.数据生成器 2.驾驶评估体系 3.高真实性的仿真 4.数据挖掘引擎
45:39 魔鬼在细节,世界模型的细粒度指标是核心竞争力
53:04 世界模型的终极状态:车不再因错误发生事故
54:48 千台 Robotaxi 开始有毛利,净利和扩张则是策略上的 trade off
56:15 不会因为它是特斯拉,Learning by Watching 就能 work
01:03:11 车辆运营维护与合作伙伴一起做;远程遥控人员的比例未来可到 1 比 30

·大部分是因为结果的正确,倒推方法的正确
01:10:20 大部分人不能坚持,不是因为苦,而是因为受到了其它诱惑
01:11:08 大模型现在很 fancy,一旦走到应用阶段,会经历自动驾驶经历的所有事
01:11:35 MiniMax 的产品是 L4,CoPilot 是 L2
01:14:09 度过行业起伏:外界看不到进展时,内部也要有合理且可感的里程碑
01:17:30 越来越相信,世界是模拟的
01:19:40 大部分人是因为结果正确,倒推成功者方法正确,但正因如此,不该盲目套用别人的方法
01:24:00 过早追求商业化,和一定要追求最有价值的商业化,都是极端。“创业前我没想过二者的平衡,创业中我肯定偏执过。”
01:25:57 下一步的关键是合理成本下,扩大车队规模

相关链接:
《市场不相信自动驾驶了,但他们还信》

剪辑:甜食

登场人物:
楼天城,小马智行联合创始人兼 CTO。
程曼祺,《晚点 LatePost》科技报道负责人。

展开Show Notes
曼祺_MatchQ
曼祺_MatchQ
2024.12.26
置顶
「教主:……那么很多人会说,向优秀司机学习行不行呢?
我:现在很多车企就是这么说的。
教主:那是他们还没意识到问题,意识到之后我不知道他们会有多绝望,我来说说我的绝望……」

以上学优秀司机绝望的评价先定 L4。

楼天城这次几乎没怎么提端到端车载模型本身,而是强调训练车端模型的 factory(工厂),也就是“虚拟训练环境”的精度才是关键。在小马,这个东西叫“世界模型”。

这背后,是外界看起来 L4 进展甚少的 5 年里,小马从 Learning by Watching 的模仿学习到 Learning by Practicing 的强化学习的转变。楼天城说:因为他在前一种路上绝望了,所以必须去走新的路。
曼祺_MatchQ
:
一些补充:和楼天城聊完后,我也再和一些人聊过,有一位人形机器人创始人阐释了类似“工厂”的想法,他的比喻是“工业母机”(机床)——我们本来没在讨论自动驾驶,本人单方面觉得这两想法独立地很像😆 不少自动驾驶同行则不太 buy in “世界模型”的描述和思路,更相信端到端和数据与算力的规模效应,以及 L2 再往后会覆盖 L4; 也有人从商业角度发出疑问:自己买车,控车队,Robotaxi,好重的商业模式! Robotaxi 刚刚回暖,远到商业成功。一边有 Waymo 融资56亿美元,一边有通用在投了 100 亿美元 Cruise 后与行业再见。Robotaxi 的有效玩家已经“伸手就不需五指”,但变数也还没完全消散。
stevenchen
stevenchen
2024.12.26
还是得专业人士聊才能更深入的了解自动驾驶
夏宝_
夏宝_
2024.12.27
谢谢曼祺,先是侯晓迪的那期,后是楼教主的这期,都解答了我很多工作中的困惑,同时也感叹这个行业的技术进步和迭代是如此之快,很多时候有一种“天上一天世上一年”的恍惚感。另外也像另一位听友提到的,这种对谈方式的播客,比采访完再编辑出来的稿子效果更好,赞赞赞
夏宝_:楼教主说等特斯拉先拿到dmv牌照再说吧,哈哈哈哈哈哈
HD240071d
HD240071d
2024.12.30
这期嘉宾有的回答太油了哈哈哈
夏天summer_inJe:接受访谈也是在做推广嘛。。
行走江胡女士:对对对对对
柴火2008
柴火2008
2024.12.31
主持人太优秀了,很多tough问题 哈哈哈
王波_podcast
王波_podcast
2024.12.26
全程听下来就是做了L4,各角度证明L4是正确的一次访谈
Hector_oCPD:作为一个围棋迷,知道阿法狗的进化历程,确实L4才是未来
39:18 还是不同意,人开车就没有这个所谓的世界模型
momo_Q5xg:人学开战斗机开坦克。还真就先要在模拟器里练
曼祺_MatchQ
曼祺_MatchQ
2024.12.27
https://mp.weixin.qq.com/s/e7GhdrNSjU_jOAUeMQmchw(本期音频的文字版
朱了个朱憨笑:前几天刚在十字路口听过一期 曼琪作为嘉宾 讨论大厂大模型和ai六小龙,今天又听到了曼琪采访楼教主robotaxi学习人类驾驶的节目。广泛涉猎ai,高产高效啊
曼祺_MatchQ
:
大家知道小宇宙评论区怎么贴能直接跳转的超链接吗?
4条回复
JessenPJ
JessenPJ
2024.12.26
思路很清晰喔,佩服佩服
江五渣
江五渣
2024.12.30
听教主声音有时卡卡的,是我 app 音频的问题吗🤔
Wasd_e7Lo:我也是
曼祺_MatchQ
:
确实音质上不是特别好,原始录音的底噪比较大,降噪后就会有一些卡顿。我们尽量避免这种情况😆
19:57 这里有个逻辑错误,你虽然是基于闭环的数据进行训练,但是你在路上开的时候,它就是一个跟你的训练数据不一样的传感器的数据也是有限的,这么一个环境,还是解决不了问题
HD66013y
HD66013y
2024.12.27
听君一席话胜读十年书
kamu
kamu
2024.12.26
一个外行听下来,很认同嘉宾的观点:

1、L2 和 L4 本质上是不同的。一个是辅助人驾驶,一个是替代人驾驶;在 L4 模式下,让人接管没有任何意义,好比一个新手接管一个老司机,那不是找死吗🤣……另外,L4 模式下,人是不怎么开车的,在问题情况下突然接管,估计也解决不了问题,另外也许会更危险。

2、也不认同马斯克说得自动驾驶纯视觉模式,老马的理由是人就是纯靠视觉来驾驶的,问题是人也不是纯靠视觉,另外靠视觉的人类也有很多盲点和问题……自动驾驶要超越人类就必须解决人类驾驶中的盲区和不足而不是模仿人类……
Hector_oCPD:对,推崇L2的人对阿法狗的进化历程一无所知。
milanow
milanow
2024.12.26
41:54 哈哈听下来这里我觉得L2真正的答案就是商业化压力~L2和L4有分歧应该是很早的共识
曼祺_MatchQ
:
😅 不过我和人交流下来,确实能感到身边很多泛科技行业的人,比如互联网公司的,做AI软件应用的,投资人等等,不少人还是挺相信L2进化后会覆盖L4。其实楼天城的有个想法挺有意思:路径的正确很多时候都是从结果倒推的。这几年行业常常比waymo 和 tesla路线,还是假定了这两个东西有大致相似的目标和结果。最后到底是什么方法可以做出来,谁最后才定义了正确的做法。
milanow:同意~我明白前沿科技的路径都是倒推出来的,各家选用何种的技术路线,区别在于cto(广义)对某种技术路线可能达到的天花板和时间段做的判断~主要这里我去下“一定是因为商业化”的结论是因为:对L2落地的大力宣传和推进(甚至包括了产品研发)的投入是外界可见的,如果单纯想在L2技术路线上做尝试根本没有必要把产品和运营打出去(浪费各种资源)。我觉得唯一能比较说服我“在L2路线上探索是为了L4”的方面是数据层面,毕竟早年自动驾驶再后验tesla路线可行的时候,都会强调tesla的数据从收集到应用的cycle很好。
4条回复
15:42 不太认可世界模型的说法,建立世界模型就是虚拟世界,一定会有损失,跟实际是不一样的
Wasd_e7Lo
Wasd_e7Lo
2024.12.31
听麻了
露露大大
露露大大
2025.1.02
57:31 太牵强了,xai 做的都不一样
曼祺_MatchQ
:
其实有一些别的迹象,比如tesla团队2024年发过 world model 的论文。
legendsfight
legendsfight
2025.1.01
22:03 人的味觉器官也在耳朵里?我是不是没听错,啊为什么
曼祺_MatchQ
:
位觉器官,耳石。
milanow
milanow
2024.12.26
47:46 +1 engineering 和 算法…区别真的不大