71: “如果相信只靠 Scaling Laws 就能实现 AGI，你该改行了”，与香港大学马毅聊智能

晚点聊 LateTalk

113分钟 ·9个月前

10803

本期节目是「晚点 LatePost」上周发布的《对话香港大学马毅》的采访音频。（原文见 shownotes 末尾链接）。

马毅现在是港大计算机系主任和数据科学研究院院长。自 2000 年从加州伯克利大学博士毕业以来，马毅先后任职于伊利诺伊大学香槟分校（UIUC）、微软亚研院、上海科技大学、伯克利大学和香港大学。

在如今的 AI 领域，马毅是一位直言不讳的少数派。不少人相信用更多数据、更大算力做更大参数的模型，就可以实现通用人工智能，这就是大模型的 Scaling Laws，它被一些人视为“信仰”。

马毅则不相信这条路。他认为现在的深度学习网络本质上，都是在做压缩（compression)：就是从图像、声音和语言等高维信号里，找到能表示数据间相关性和规律的低维结构。

GPT 表现出来的数学推理等能力，在马毅看来本质还是依靠记忆和统计，就像一个接受填鸭式教育的、高分低能的学生，它并不能学到因果推理、逻辑等能力。这离他定义的智能还有相当距离。他认为智能最本质的特征是：能纠正自己现存知识的不足，而且能增加新的知识。

由此，马毅也完全不买账 AI 威胁论，他认为，说现在的 AI 危险的人，“要么是无知，要么是别有目的”。

为解释深度学习网络到底在做什么，马毅团队最近几年的重点工作是，白盒大模型，也就是用数学来解释深度学习网络的压缩过程，以找到更高效的压缩方式。

他也希望以此来对抗黑盒带来的误解，因为“历史上，任何有用的黑盒都可能变成迷信和巫术”。他担心 AI 威胁论可能带来过度监管，导致垄断，遏制创新。

真理不一定掌握在少数人手中，但少数派和观点竞争的存在增加了发现真知的概率。

*访谈过程中涉及了一些论文、著作和术语，我们也标注在了 shownotes 里的附录部分。

时间线指引：

-现有主流路线的局限
02:49 工业界更关注现有方法提效，而白盒模型刚提出时的工程验证有限。
05:08 现在的大模型是通过经验找到了一些有效的方法，但它引起的量变不是真正的智能。
08:29 现有方法其实只模拟了记忆的局部功能，资源消耗大GPT 类模型仍“高分低能”。
13:26 当整个community 都认可一两件事，可能忽略掉其他可能更重要的事，曾经的深度学习就是一个例子。
15:45 如果你作为年轻人，相信只靠 Scaling Laws 就可以实现 AGI，你可以转行了。(这部分提及的文章是附录里的 wide eyes shut）
18:44 因为研究不要怕特立独行：当年在微软亚研院招何恺明等员工，都会让大家想：你做的哪些事别人做不了？

-智能的原则：简约与自洽；达到智能的可能路径：白盒、闭环、自主
21:19 2017 年回到伯克利后，开始梳理已有成果：现有深度网络都是在做“压缩”（compression)。
23:18 白盒大模型是给这个压缩过程找到数学解释。
24:52 科学史上的好想法总会被翻新。
26:11 知道了压缩到数学原理，能帮助找到更高效的压缩方式。
26:50 Everything should be made as simple as possible, but not any simpler.前半句对应简约，后半句对应自洽。
29:39 为什么智能会出现？——世界上有值得学、能学到的规律。
32:47 知识不等于智能，GPT-4 有更多知识，婴儿更智能。智能的本质特则会给你是能纠正现存知识的不足并增加新的知识。
37:13 达到智能，除了从黑盒到白盒，还有从开环到闭环，从人工到自主。
40:48 自主学习的含义之一是，人的学习是在大脑内部建模完成的，不需要真去对比外部物理信号，生物没有这个选项。
46:17 跨学科研究和借鉴神经科学帮助形成了上述想法。

-验证推演 & 白盒对黑盒的祛魅
48:41 ReduNet 是一个框架，但工程实现还不够；CRATE 做了工程优化。
55:32 历史上任何有用的黑盒都可能变成巫术。
57:03 有人说 AI 是原子弹，我们看很可笑。
57:33 政府应该监管技术的应用，而不是技术本身。
59:07 从去年开始，更迫切感到要让更多人知道现在的 AI 在作什么，AI 没这么可怕。
60:16 白盒更实际的作用：减少试错成本、GPU 成本。

-对智能历史的梳理
01:05:04 为何机器智能的结构会类似生物智能？——尚未看到更高效地方法。
01:07:13 从维纳的《控制论》开始，第一批研究智能的选择并没有区分机器与生物。
01:09:58 闭环系统的好处，解决“灾难性以往”问题。
01:13:13 对（人工）智能的研究并非始于1956年。
01:15:26 深度网络的两次危机都与缺乏数学解释有关，但现在可能不会再发生。
01:17:23 从生物学和神经科学中学习，猴子大脑机制与智能研究发现的相似性。
01:20:36 真正的智能应具备自主学习和自我纠错的能力。

-创业 & 教育
01:24:14 学校做验证，公司做放大，希望证明白盒路线的可行。
01:29:09 要么有量变，用白盒显著降低训练资源or提升训练效率；要么有质变，探索闭环、自主的可能性。
01:38:53 业界其他的非主流路线探索：LeCun 的 JEPA，李飞飞新创业等。
01:41:21 港大正在推动 AI literacy 课程，所有专业都学，AI 应成为通识教育的一部分。
01:48:39 达特茅斯会议为什么在智能前面加上 artificial？——也是追求和前辈不一样，想探索人类高级智能。
01:52:20 科学竞争最关键的就是人，重要的是把资源分配给正确的人。

相关链接：

对话香港大学马毅：“如果相信只靠 Scaling Laws 就能实现 AGI，你该改行了”
mp.weixin.qq.com

【视频】马毅教授谈神经网络，《简约和自洽》：神经网络从黑盒到白盒，学习模型从开环到闭环
（听完播客还有兴趣了解跟多的话，非常推荐这个视频，有图解、有现场，深入简出）
www.bilibili.com

忆生科技Engram正在招募优秀人才，简历请投递：recruit@transcengram.com

访谈中提到的论文：

Scaling White-Box Transformers for Vision, 2024/5
arxiv.org

Eyes wide shut? exploring the visual shortcomings of multimodal llms, 2024/4
arxiv.org

White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? 2023/11
arxiv.org

Unsupervised Learning of Structured Representations via Closed-Loop Transcription, 2022/10
arxiv.org

本期人物：
马毅，香港大学计算机系主任
程曼祺，晚点 LatePost 科技报道编辑（微信：momochoqo；即刻：程曼祺_火柴Q）

剪辑：甜食

附录：访谈中提到的技术术语、概念和人物
维纳：在 1940 年代前后提出控制论。播客中提到的《控制论》的副标题是：under control and communication in animals and machine（“或关于在动物和机器中控制和通信的科学”）
香农：在 1940 年代前后提出信息论
Yann LeCun，图灵奖获得者、Meta 首席科学家
李飞飞，知名 AI 研究者，斯坦福大学教授
何恺明，知名 AI 研究者，ResNet 作者
1956 年达特茅斯会议：提出了人工智能（Artificial Intelligence）这一概念的会议
ReduNet，马毅团队 2022 年发布的白盒大模型理论框架
CRATE，马毅团队 2023 年提出的更新的白盒大模型
JEPA，Yann LeCun 团队提出的一种世界模型架构

展开Show Notes

Shira

2024.6.12

稀有的高质量播客。甚至可以说，在熙熙攘攘的浪潮声中，帮助巩固和确认了自己原有的认知和理解。“任何有用的黑盒都可能变成巫术”，是的，而且生物的趋同属性会加速对AI从useful到helpful再到omniscient and omnipotent的判断过程。

曼祺_MatchQ

2024.6.13

之前有条评论说没听到马毅具体研究是什么。原评论者把这条删了，我直接留言说一下（具体见附录）：马毅和 LeCun 、谢赛宁一起去测多模态的那个研究对应附录里的 eyes wide shut 那篇。ReduNet 和 CRATE 两个框架是标题里有 white-box 的两篇。闭环和反馈相关是 Unsupervised Learning of Structured Representations via Closed-Loop Transcription 这篇。

（他谈话时其实提到了自己的论文和研究，但没有说完整，要么只提了关键词，要么只说了标题的一部分，而且用英文讲的，确实比较难听清楚。

八月风暴:通过小宇宙给你留个言，感谢你。你之前是不是在那个甲子光年？

曼祺_MatchQ

:😄 是的。之前在甲子时我的笔名是“光年之外”。

共3条回复

张渊猛地站了起来

2024.6.12

教授的偏见还是有点深，人脑难道不也是个黑盒吗？难道在研究清楚人脑之前就不能相信人了吗？研究应用的和研究可解释性的可以并行前行，没必要踩着另一个

sanbai_:技术路线的分歧对科学家来说就像宗教信仰不同一样，表达激烈一些很正常。

rmrf:赞同你

共6条回复

子春之酒

2024.6.12

35:59 会不会按照这种定义，大部分人都不具有智能[笑cry]

曼祺_MatchQ

:他后面确实提到，一个典型的智能过程是科学研究纠正存量的知识，增加新知识。（不过我觉得大部分人即使不刻意如此，也是在纠错、学习。每个人学的方向不同。

子春之酒

2024.6.12

个人认为，就应该是功成名就的人来做这件事，因为离开主流赛道是极度有风险的，年轻人不需要为了所谓青史留名来赌上人生，这不是大部分人的路。

Shira:可能恰好相反，intelligence 和math很相似。more than any art or science，it‘s a young man’s game

八月风暴:在深度求索出来之后，再看你这段话，简直滑稽至极

共7条回复

吹弹可破小憨包

2024.6.12

哇哇出了播客版，之前看了文字版，是非常值得一看（听）的观点！！

Soliloquyyy

2024.6.15

借用马教授之前微博上说的总结： we compress to learn and we learn to compress.

于礼

2024.6.12

教授还是安心做研究吧，相信他，但是我觉得不适合小宇宙。

暗香浮动_1LUO

2024.8.13

这期太赞了，白盒努力。

SimonAKing

2024.6.13

客观说下个人观点（在上班路上，想到哪说哪），基本认同 mayi 教授观点。
1. 现在的 ai 是预训练与推理分开，预训练依赖高质量信息；人为可用依赖对齐各种策略。这里面离不开人工与数据清洗。也可以挂载外部的 vector db 去做 memory，通过 ioc 做到即时学习的假象，这里就很依赖 rag，而 rag 是系统工程，调参变量很多，这里没有一个主流认可的准确率高且高性能的路线。另外现在也有推理即训练的研究。
2. mayi 的主要观点是大模型只是数据概率，缺少更深层面的信息，不过一直都有世界模型的研究，这里很难的一点是对世界信息的压缩，为什么大语言模型这么快出现？是因为文本好压缩，信息足够可表达。像 mayi 说的，有的信息是需要机器人才能感知到。

另外除了这点，大模型现在的预测下一个 token 不是符合人的思想，人可能去想一个 topic再表达。但为什么可行是因为大模型有“微分”特性。

ps: 再纠正一点，scaling law只是说了通过题海战术可以提高准确率，这是很自然的事情，不要妖魔化

SimonAKing:我个人还是对现在的路线比较乐观，因为 llm 已经被业界大规模实践，这是有史以来很难得的一件事，这已经有势能了，也是 mayi 说的从众，有好也有坏…

阿互:说的很好。我是被留言开头吸引到的，我有些奇怪的笑点，“客观说下个人观点”

共4条回复

想飞的大笨象

2024.6.19

十分赞同教授的观点。目前LLM就是基于统计的猜测，本质上和暴力计算没有差异。LLM的训练，验证和production是三个不同的阶段，数据集也是不同的，无法像人类一样边干边学，从实践中总结经验（好像基于深度学习的AI模型基本都是如此？）。需要人类的帮助才能提高自身智力的东西，如何能取代人类呢？我对各类CEO的言论十分不感冒，绝大部分CEO本质上就是个销售，甚至C销，他们的言论不是基于信仰，而是利益。
人类确实还没有破解大脑和脑神经学，但是人类对自身的行为模式及其背后的原理已经有了很多认识（这也是为何一些大牛是跨界来做AI，例如杰夫辛顿），相对于LLM模型而言，已经足够白了。
教授所谓的黑盒，应该是有个没有重点解释的前提，大家说AGI，是以人类为参照物。这个好像也是业界共识吧。至于说其它类型的智能，那就不能叫AGI，最多叫GI，而且对于智能的定义，业界也是千差万别，用来讨论LLM没有意义。在这个前提下，LLM的黑盒确实无法解释它达到了人类的水平。
更关键，也是教授重点强调的，黑盒的效率低。其实，这个观点也是AI历程所证明的。AI的发展经历了若干个技术路线，在神经网络和LLM领域中，也有不同的算法和工程架构，这些都说明黑盒的不可持续性，大家都想白化大模型，只不过很多人过度依赖消耗资源的试验。scaling law的无限有效性只存在于纯理论的想象中，就像有人说，如果给一只猴子一台打字机，从数学统计学来说，它早晚能打出一部莎士比亚，但是现实则是，这么长的时间，宇宙可能都毁灭若干次了。