71: “如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了”,与香港大学马毅聊智能晚点聊 LateTalk

71: “如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了”,与香港大学马毅聊智能

113分钟 ·
播放数9503
·
评论数75

本期节目是「晚点 LatePost」上周发布的《对话香港大学马毅》的采访音频。(原文见 shownotes 末尾链接)。

马毅现在是港大计算机系主任和数据科学研究院院长。自 2000 年从加州伯克利大学博士毕业以来,马毅先后任职于伊利诺伊大学香槟分校(UIUC)、微软亚研院、上海科技大学、伯克利大学和香港大学。

在如今的 AI 领域,马毅是一位直言不讳的少数派。不少人相信用更多数据、更大算力做更大参数的模型,就可以实现通用人工智能,这就是大模型的 Scaling Laws,它被一些人视为“信仰”。

马毅则不相信这条路。他认为现在的深度学习网络本质上,都是在做压缩(compression):就是从图像、声音和语言等高维信号里,找到能表示数据间相关性和规律的低维结构。

GPT 表现出来的数学推理等能力,在马毅看来本质还是依靠记忆和统计,就像一个接受填鸭式教育的、高分低能的学生,它并不能学到因果推理、逻辑等能力。这离他定义的智能还有相当距离。他认为智能最本质的特征是:能纠正自己现存知识的不足,而且能增加新的知识。

由此,马毅也完全不买账 AI 威胁论,他认为,说现在的 AI 危险的人,“要么是无知,要么是别有目的”。

为解释深度学习网络到底在做什么,马毅团队最近几年的重点工作是,白盒大模型,也就是用数学来解释深度学习网络的压缩过程,以找到更高效的压缩方式。

他也希望以此来对抗黑盒带来的误解,因为“历史上,任何有用的黑盒都可能变成迷信和巫术”。他担心 AI 威胁论可能带来过度监管,导致垄断,遏制创新。

真理不一定掌握在少数人手中,但少数派和观点竞争的存在增加了发现真知的概率。

*访谈过程中涉及了一些论文、著作和术语,我们也标注在了 shownotes 里的附录部分。

时间线指引:

-现有主流路线的局限
02:49 工业界更关注现有方法提效,而白盒模型刚提出时的工程验证有限。
05:08 现在的大模型是通过经验找到了一些有效的方法,但它引起的量变不是真正的智能。
08:29 现有方法其实只模拟了记忆的局部功能,资源消耗大GPT 类模型仍“高分低能”。
13:26 当整个community 都认可一两件事,可能忽略掉其他可能更重要的事,曾经的深度学习就是一个例子。
15:45 如果你作为年轻人,相信只靠 Scaling Laws 就可以实现 AGI,你可以转行了。(这部分提及的文章是附录里的 wide eyes shut)
18:44 因为研究不要怕特立独行:当年在微软亚研院招何恺明等员工,都会让大家想:你做的哪些事别人做不了?

-智能的原则:简约与自洽;达到智能的可能路径:白盒、闭环、自主
21:19 2017 年回到伯克利后,开始梳理已有成果:现有深度网络都是在做“压缩”(compression)。
23:18 白盒大模型是给这个压缩过程找到数学解释。
24:52 科学史上的好想法总会被翻新。
26:11 知道了压缩到数学原理,能帮助找到更高效的压缩方式。
26:50 Everything should be made as simple as possible, but not any simpler.前半句对应简约,后半句对应自洽。
29:39 为什么智能会出现?——世界上有值得学、能学到的规律。
32:47 知识不等于智能,GPT-4 有更多知识,婴儿更智能。智能的本质特则会给你是能纠正现存知识的不足并增加新的知识。
37:13 达到智能,除了从黑盒到白盒,还有从开环到闭环,从人工到自主。
40:48 自主学习的含义之一是,人的学习是在大脑内部建模完成的,不需要真去对比外部物理信号,生物没有这个选项。
46:17 跨学科研究和借鉴神经科学帮助形成了上述想法。

-验证推演 & 白盒对黑盒的祛魅
48:41 ReduNet 是一个框架,但工程实现还不够;CRATE 做了工程优化。
55:32 历史上任何有用的黑盒都可能变成巫术。
57:03 有人说 AI 是原子弹,我们看很可笑。
57:33 政府应该监管技术的应用,而不是技术本身。
59:07 从去年开始,更迫切感到要让更多人知道现在的 AI 在作什么,AI 没这么可怕。
60:16 白盒更实际的作用:减少试错成本、GPU 成本。

-对智能历史的梳理
01:05:04 为何机器智能的结构会类似生物智能?——尚未看到更高效地方法。
01:07:13 从维纳的《控制论》开始,第一批研究智能的选择并没有区分机器与生物。
01:09:58 闭环系统的好处,解决“灾难性以往”问题。
01:13:13 对(人工)智能的研究并非始于1956年。
01:15:26 深度网络的两次危机都与缺乏数学解释有关,但现在可能不会再发生。
01:17:23 从生物学和神经科学中学习,猴子大脑机制与智能研究发现的相似性。
01:20:36 真正的智能应具备自主学习和自我纠错的能力。

-创业 & 教育
01:24:14 学校做验证,公司做放大,希望证明白盒路线的可行。
01:29:09 要么有量变,用白盒显著降低训练资源or提升训练效率;要么有质变,探索闭环、自主的可能性。
01:38:53 业界其他的非主流路线探索:LeCun 的 JEPA,李飞飞新创业等。
01:41:21 港大正在推动 AI literacy 课程,所有专业都学,AI 应成为通识教育的一部分。
01:48:39 达特茅斯会议为什么在智能前面加上 artificial?——也是追求和前辈不一样,想探索人类高级智能。
01:52:20 科学竞争最关键的就是人,重要的是把资源分配给正确的人。

相关链接:

对话香港大学马毅:“如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了”
mp.weixin.qq.com

【视频】马毅教授谈神经网络,《简约和自洽》:神经网络从黑盒到白盒,学习模型从开环到闭环
(听完播客还有兴趣了解跟多的话,非常推荐这个视频,有图解、有现场,深入简出)
www.bilibili.com

忆生科技Engram正在招募优秀人才,简历请投递:recruit@transcengram.com

访谈中提到的论文:

Scaling White-Box Transformers for Vision, 2024/5
arxiv.org

Eyes wide shut? exploring the visual shortcomings of multimodal llms, 2024/4
arxiv.org

White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? 2023/11
arxiv.org

Unsupervised Learning of Structured Representations via Closed-Loop Transcription, 2022/10
arxiv.org

本期人物:
马毅,香港大学计算机系主任
程曼祺,晚点 LatePost 科技报道编辑(微信:momochoqo;即刻:程曼祺_火柴Q)

剪辑:甜食

附录:访谈中提到的技术术语、概念和人物
维纳:在 1940 年代前后提出控制论。播客中提到的《控制论》的副标题是:under control and communication in animals and machine(“或关于在动物和机器中控制和通信的科学”)
香农:在 1940 年代前后提出信息论
Yann LeCun,图灵奖获得者、Meta 首席科学家
李飞飞,知名 AI 研究者,斯坦福大学教授
何恺明,知名 AI 研究者,ResNet 作者
1956 年达特茅斯会议:提出了人工智能(Artificial Intelligence)这一概念的会议
ReduNet,马毅团队 2022 年发布的白盒大模型理论框架
CRATE,马毅团队 2023 年提出的更新的白盒大模型
JEPA,Yann LeCun 团队提出的一种世界模型架构

展开Show Notes
Shira
Shira
2024.6.12
稀有的高质量播客。甚至可以说,在熙熙攘攘的浪潮声中,帮助巩固和确认了自己原有的认知和理解。“任何有用的黑盒都可能变成巫术”,是的,而且生物的趋同属性会加速对AI从useful到helpful再到omniscient and omnipotent的判断过程。
之前有条评论说没听到马毅具体研究是什么。原评论者把这条删了,我直接留言说一下(具体见附录):马毅和 LeCun 、谢赛宁一起去测多模态的那个研究对应附录里的 eyes wide shut 那篇。ReduNet 和 CRATE 两个框架是标题里有 white-box 的两篇。闭环和反馈相关是 Unsupervised Learning of Structured Representations via Closed-Loop Transcription 这篇。

(他谈话时其实提到了自己的论文和研究,但没有说完整,要么只提了关键词,要么只说了标题的一部分,而且用英文讲的,确实比较难听清楚。
教授的偏见还是有点深,人脑难道不也是个黑盒吗?难道在研究清楚人脑之前就不能相信人了吗?研究应用的和研究可解释性的可以并行前行,没必要踩着另一个
sanbai_:技术路线的分歧对科学家来说就像宗教信仰不同一样,表达激烈一些很正常。
rmrf:赞同你
5条回复
个人认为,就应该是功成名就的人来做这件事,因为离开主流赛道是极度有风险的,年轻人不需要为了所谓青史留名来赌上人生,这不是大部分人的路。
Shira:可能恰好相反,intelligence 和math很相似。more than any art or science,it‘s a young man’s game
子春之酒:那不是young man,那是young genius,放在任何时代都是凤毛麟角
3条回复
子春之酒
子春之酒
2024.6.12
35:59 会不会按照这种定义,大部分人都不具有智能[笑cry]
曼祺_MatchQ
:
他后面确实提到,一个典型的智能过程是科学研究纠正存量的知识,增加新知识。(不过我觉得大部分人即使不刻意如此,也是在纠错、学习。每个人学的方向不同。
哇哇出了播客版,之前看了文字版,是非常值得一看(听)的观点!!
于礼
于礼
2024.6.12
教授还是安心做研究吧,相信他,但是我觉得不适合小宇宙。
SimonAKing
SimonAKing
2024.6.13
客观说下个人观点(在上班路上,想到哪说哪),基本认同 mayi 教授观点。
1. 现在的 ai 是预训练与推理分开,预训练依赖高质量信息;人为可用依赖对齐各种策略。这里面离不开人工与数据清洗。也可以挂载外部的 vector db 去做 memory,通过 ioc 做到即时学习的假象,这里就很依赖 rag,而 rag 是系统工程,调参变量很多,这里没有一个主流认可的 准确率高且 高性能的路线。另外现在也有 推理即训练的研究。
2. mayi 的主要观点是 大模型只是数据概率,缺少更深层面的信息,不过一直都有世界模型的研究,这里很难的一点是 对世界信息的压缩,为什么大语言模型这么快出现?是因为文本好压缩,信息足够可表达。像 mayi 说的,有的信息是需要机器人才能感知到。

另外除了这点,大模型现在的预测下一个 token 不是符合人的思想,人可能去想一个 topic再表达。但为什么可行 是因为大模型有“微分”特性。

ps: 再纠正一点,scaling law只是说了通过题海战术可以提高准确率,这是很自然的事情,不要妖魔化
SimonAKing:我个人还是对现在的路线比较乐观,因为 llm 已经被业界大规模实践,这是有史以来很难得的一件事,这已经有势能了,也是 mayi 说的从众,有好也有坏…
阿互:说的很好。我是被留言开头吸引到的,我有些奇怪的笑点,“客观说下个人观点”
4条回复
这期太赞了,白盒努力。
晓风暮笛
晓风暮笛
2024.6.21
质量超级高,比文章的收获更大。马老师真的透彻,逻辑清晰,语速也特别舒服,希望多邀请一些类似嘉宾~~
十分赞同教授的观点。目前LLM就是基于统计的猜测,本质上和暴力计算没有差异。LLM的训练,验证和production是三个不同的阶段,数据集也是不同的,无法像人类一样边干边学,从实践中总结经验(好像基于深度学习的AI模型基本都是如此?)。需要人类的帮助才能提高自身智力的东西,如何能取代人类呢?我对各类CEO的言论十分不感冒,绝大部分CEO本质上就是个销售,甚至C销,他们的言论不是基于信仰,而是利益。
人类确实还没有破解大脑和脑神经学,但是人类对自身的行为模式及其背后的原理已经有了很多认识(这也是为何一些大牛是跨界来做AI,例如杰夫辛顿),相对于LLM模型而言,已经足够白了。
教授所谓的黑盒,应该是有个没有重点解释的前提,大家说AGI,是以人类为参照物。这个好像也是业界共识吧。至于说其它类型的智能,那就不能叫AGI,最多叫GI,而且对于智能的定义,业界也是千差万别,用来讨论LLM没有意义。在这个前提下,LLM的黑盒确实无法解释它达到了人类的水平。
更关键,也是教授重点强调的,黑盒的效率低。其实,这个观点也是AI历程所证明的。AI的发展经历了若干个技术路线,在神经网络和LLM领域中,也有不同的算法和工程架构,这些都说明黑盒的不可持续性,大家都想白化大模型,只不过很多人过度依赖消耗资源的试验。scaling law的无限有效性只存在于纯理论的想象中,就像有人说,如果给一只猴子一台打字机,从数学统计学来说,它早晚能打出一部莎士比亚,但是现实则是,这么长的时间,宇宙可能都毁灭若干次了。
Soliloquyyy
Soliloquyyy
2024.6.16
借用马教授之前微博上说的总结: we compress to learn and we learn to compress.
Itsleila
Itsleila
2024.6.15
31:50 采访教授真是需要基本功
Leilaaaa
Leilaaaa
2024.6.12
开头的语速让我以为开了倍速!
rmrf:我特意调低了倍速,否则跟不上😏
早起川:确实,是真的语速很快吗?
duducheng
duducheng
2024.6.12
非常好的一期,马老师圈粉
晓雅聊AI
晓雅聊AI
2024.7.09
我在想假如他在这个大洪流中,就是说能够得到万卡集群的位置上,他是否会去验证Scaling Laws
1:46:11 人一旦有立场了,就没有常识了。稍微有点绝对 但是几乎是正确的。
单翼精灵
单翼精灵
2024.6.15
47:15 说反了吧?科学家只需要考虑可能性,多一条路径就多一个成功的可能性。工程师是需要考虑成本的啊!一个10块钱就能搞定的事情,你花1w,谁会让你去做?
感觉播客的形式比文章的形式好,马毅老师口头说的很多观点做了很多补充说明,整个观点会比较完善。文章上,缺少了预期和省略了一些解释,会显得一些观点比较「硬」
沙茶
沙茶
2024.6.12
高屋建瓴,很有价值