108: 与马毅聊智能史:“DNA是最早的大模型”,智能的本质是减熵晚点聊 LateTalk

108: 与马毅聊智能史:“DNA是最早的大模型”,智能的本质是减熵

138分钟 ·
播放数16973
·
评论数99

香港大学计算与数据科学学院院长,看 35 亿年智能史。欲知未来,先知过去。

这期是《晚点聊》的一个新系列 「LongContext」“长语境”的第 1 期。
封面:马毅上周五(3 月 14 日)在北大做分享(刚好是 π 日)

类似于现在的大模型需要 LongContext,我们去学习智能,也需要一个更全面的历史语境,让我们能在新东西不断涌现的此刻,找到一个更稳定的坐标。

在这个系列的开端,我邀请了香港大学计算与数据科学学院院长,马毅教授,来与我们聊智能和机器智能的历史。

马毅本科毕业于清华大学,2000 年在加州伯克利大学获得博士学位,先后任职于伊利诺伊大学香槟分校(UIUC)、微软亚研院、上海科技大学、伯克利大学和香港大学,是人工智能和计算机视觉领域的全球知名学者。

最近 5 年,马毅自己关心的课题之一,就是智能的历史。为了在港大推动面向所有学科本科生的 AI 通识教育,他也在撰写教材、设计课程,对智能的发展做了更全面和深入浅出的整理。

马毅对智能有一些“少数派”的理解,比如本系列的名称「LongContext」——当作为一个技术概念时,马老师认为与其一味追逐预训练模式下的更长 LongContext,更好的方法是找到一种机制,能让智能系统有闭环的、长久的、不会遗忘的记忆。这些理解本身与他对智能史的梳理和认知有关。

智能是如何在地球上诞生的?马毅认为,生命就是智能的载体:从 DNA 出现,到神经系统诞生和寒武纪物种大爆发,再到人类的语言与数学的诞生,智能有不同的表现形式,但不变的是,智能都是在学习外部世界的知识与规律,从而进行预测,使知识可以为我所用。智能是在寻找规律并利用规律,是一个对抗宇宙熵增的过程

从智能的历史,我们进一步聊了机器智能的历史:大部分人会把 1956 年的达特茅斯会议视为人工智能的开端,而马毅认为,对机器智能的研究,要追溯到 1940 年代的维纳的控制论、香农的信息论等更早的源头。从那时到现在的 80 多年里,机器智能发展几经起伏。马毅也分享了自己亲历的部分变化:比如他刚博士毕业时,找不到对口方向的教职;他现在被引用最多的成果,一度没有任何会议接受。

马毅也分享了一个研究者的技术品味如何形成?“品味”不仅是一种认知,也是认知被挑战时能继续坚持的自信。马毅的 taste,使他进入了一个目前在 AI 工业界眼中并不那么主流的方向:白盒大模型,和能实现“闭环、反馈、纠错”的机器智能。这两个方向在我们去年与马老师的访谈中有更详细的展开,具体内容可见《晚点聊》第 71 期节目。为加速这些方向的探索,马毅也创立了一家公司“忆生科技”。

本期涉及的人物、理论、技术成果、术语,见 Shownotes 文末附录。

本期嘉宾:
马毅,香港大学计算与数据科学学院院长

时间线:
00:13 开场总结 & LongContext 系列说明

智能的历史
04:58 DNA、神经系统、语言、数学,智能有四种机制;知识本身不是智能,而是智能活动的结果
19:06 大模型在四种机制中的阶段——类似靠 DNA 物竞天择的强化学习
24:53 智能在宇宙中诞生,也许是偶然中的必然;宇宙熵增(越来越混乱、随机),终有一天会无规律可学

机器智能的历史
29:02 AI 的起点不是达特茅斯会议
39:55 80 年机器智能史中的“闪耀时刻”
46:57 神经网络的起伏,本质是机制不明确,一些成果靠经验性试错
56:51 Open o1 和 DeepSeek-R1,它们真的在做“推理”吗?
01:08:06 “DeepSeek”们的出现,是一个 where and when 的问题,不是 if or not 的问题

技术 taste 的形成
01:11:21 探索未知的勇气和特立独行+严谨的学术培养
01:14:24 “做数学家,第一条是把自己训练成世界上最难说服的人”
01:18:53 在伯克利读博士时的氛围:自由跨组,学生互助
01:24:16 品味被挑战的时刻:现在被引用最多的成果,一度没有任何会议接收
01:27:58 没有接受系统教育的企业家、从业者,如何形成技术 taste?

港大 AI 通识教育实践
01:35:12 减少一门英语课,所有本科生增加一门 AI literacy:教授历史、技术概念、伦理;重要的是思维训练,而不是结论本身
01:45:50 机器降临派 or 人类堡垒派?——智能共存

白盒与闭环反馈纠错
01:52:15 闭环系统才能适应开放世界,具身是应用场景
01:54:05 VLA 端到端不一定是具身智能正确的解法,至少不是最高效的解法;人脑其实是一个并行结构
01:59:50 公司的意义,与学校要做的事形成互补
02:11:28 “我从不说 AGI”,不要笼统地理解智能
02:13:05 “焦虑就是来自不懂”,当 AI 的黑盒被利用,“迷信是这么产生的,权力也是这么产生的”

02:15:09 本期「连点成线」

相关链接:
晚点聊71:“如果相信只靠 Scailng Laws 就能实现 AGI,你该改行了”,与香港大学马毅聊智能

对话香港大学马毅:“如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了”

晚点聊106:与真格戴雨森长聊Agent:各行各业都会遭遇“李世石时刻”,Attention is not all you need

晚点聊103:用 Attention 串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进

晚点聊101:与王小川聊AIX医疗:通向“生命科学的数学原理”

附录:
诺伯特·维纳:控制论创始人,奠定AI与自动化理论基础。
图灵:计算机科学之父,提出图灵机与图灵测试,奠定AI理论基础。
冯·诺依曼架构:计算机体系结构基础,由冯·诺依曼于1945年提出,沿用至今。
达特茅斯会议:1956 年由麦卡锡、明斯基等人发起,首次定义“人工智能”。
Perceptron:感知机,Frank Rosenblatt于1957年提出的早期神经网络模型。
Yann Lecun:卷积神经网络先驱,2018年图灵奖得主,Meta首席AI科学家。
Geoffrey Hinton:深度学习先驱,反向传播算法(Back Propagation)联合提出者,2018年图灵奖得主。
李飞飞:斯坦福大学教授,ImageNet数据集发起人,推动计算机视觉发展。
卷积神经网络(CNN):Yann LeCun于1980年代末提出的深度学习模型,专用于图像识别。
AlexNet:2012年ImageNet竞赛冠军模型,由Hinton团队提出,推动深度学习复兴。
ResNet:微软2015年提出的残差网络,解决深层网络梯度消失问题。
VGG:牛津大学2014年提出的深度卷积网络,以结构简单高效著称。
ImageNet:李飞飞团队2009年发起的图像数据集,推动AI算法发展。
李泽湘:机器人技术专家,马毅在伯克利博士期间的师兄;他们的导师是 Shankar Sastry。
陶哲轩:数学家,研究涵盖机器学习理论,推动AI与数学交叉领域发展。
SFT Memorizes, RL Generalizes:(港大、UC Berkely、Google DeepMind、NYU 2025 年合作发表的论文),是本期中讨论提升模型推理时,SFT(监督微调)和 RL(强化学习)的相关但不同角色的那篇论文。
监督微调(Supervised Fine Tuning):基于标注数据调整预训练模型,适配特定任务。
强化学习(Reinforcement Learning):通过奖励机制优化策略,适用于动态决策任务。
伯克利 BAIR:加州大学伯克利分校人工智能研究所,成立于2016年,聚焦机器人、强化学习等前沿领域。
VLA:Vision-Language-Action Model 视觉-语言-动作模型,Google DeepMind 2023 年提出的一种让智能体在物理或数字环境中执行复杂任务的模型,应用于机器人、自动驾驶等领域
播客中提到的两位遭遇学生生涯挫折的诺贝尔奖得住:一位是 2024 年生理学或医学奖得主 Victor Ambros,曾未能获得哈佛大学终身教职;一位是 2023 年生理学或医学奖得主 Katalin Karikó,曾被宾夕法尼亚大学降级降薪。

剪辑制作:Nick

本期主播:小红书 @曼祺_火柴Q,即刻 @曼祺_火柴Q

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

展开Show Notes
置顶
「欲知未来,先知过去。」
这期是《晚点聊》的一个新系列「LongContext」“长语境”的第 1 期。

类似现在的大模型需要 LongContext,我们去学习智能,也需要一个更全面的历史语境,让我们能在新东西不断涌现的此刻,找到一个更稳定的坐标。

在系列开端,我邀请了香港大学计算与数据科学学院院长,马毅教授,来聊智能的历史和机器智能的历史。

这是一个从 DNA 开始的漫长故事:从数十亿年前的物种进化到如今的大模型,马老师有一个有趣的统一观察视角。具体来听本期节目吧~

(btw,点开这期,你将 get 上周马老师在清华、北大、北邮分享的精华想法,并得到更多他个人亲历的 AI 变化。

去年的节目:71: “如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了”,与香港大学马毅聊智能
马老师确实是透过现象看本质,听过马老师参加的这两次播客,有豁然开朗的感觉。
这期播客质量,超级棒,深入浅出。大师果然能把深奥的东西简单说清楚
stewart831
stewart831
2025.3.19
1:42:09 老师的港大课程有开源吗?很想去听一下😁
曼祺_MatchQ
:
😄这个我问过了,比如网课版本,马老师说可能会有。现在应该还没有具体计划,他们在准备今年秋天开始为全部港大本科生上课。
kamu
kamu
2025.3.18
宇宙是在熵增的,生命和智能是在对抗宇宙的熵增中不断进化……熵减对抗熵增,有序对抗无序;同时,局部的智能熵减又会增加宇宙整体的熵增……比如近现代以来的工业化和现代化,导致地球增温气候变暖海平面上升灾害天气变多……未来 ,AI 这个消耗巨量算力和能源的巨兽,会给地球和生命带来什么样的福和祸……拭目以待😂
yoyoVCer
yoyoVCer
2025.3.19
怎么有点忽悠感?
林昱_UOfn:说明你缺少了验证他们谈话内容的背景知识
yoyoVCer:动辄以人类简史这么空和大的背景来类比 压根没可比性呀 喊口号
4条回复
晓峰_jCYO
晓峰_jCYO
2025.3.19
关于大卫休谟的这段文字有点意思,因果推理也应基于经验,这是否说明当前最红的AI技术:LLM,它擅长的概率计算,其实也是一种因果计算?
Da­v­id Hu­me ex­t­e­n­d­ed Lo­c­ke’s em­p­i­r­i­c­i­sm by co­n­t­e­n­d­i­ng th­at hu­m­an be­i­n­gs ca­n­n­ot po­s­s­e­ss kn­o­w­l­e­d­ge of the wo­r­ld th­at is not ba­s­ed on em­p­i­r­i­c­al ev­i­d­e­n­ce. He fa­m­o­u­s­ly qu­e­s­t­i­o­n­ed the co­n­c­e­pt of ca­u­s­a­l­i­ty, ar­g­u­i­ng th­at we ca­n­n­ot kn­ow wi­th ce­r­t­a­i­n­ty wh­e­t­h­er one ev­e­nt ca­u­s­es an­o­t­h­er, but on­ly th­at we ha­b­i­t­u­a­l­ly as­s­o­c­i­a­te the two ev­e­n­ts in our ex­p­e­r­i­e­n­ce. Hu­me’s sk­e­p­t­i­c­i­sm ab­o­ut the li­m­i­t­a­t­i­o­ns of hu­m­an re­a­s­on and his ch­a­l­l­e­n­ge to the ce­r­t­a­i­n­ty of ca­u­s­al re­l­a­t­i­o­n­s­h­i­ps we­re re­v­o­l­u­t­i­o­n­a­ry in th­e­ir im­p­l­i­c­a­t­i­o­ns, sh­a­k­i­ng the ve­ry fo­u­n­d­a­t­i­o­ns of tr­a­d­i­t­i­o­n­al me­t­a­p­h­y­s­i­cs and ep­i­s­t­e­m­o­l­o­gy.
大卫·休谟通过进一步阐述经验主义,提出人类不能拥有不基于经验证据的世界知识。他著名地质疑了因果关系的概念,认为我们无法确定某一事件是否引起了另一事件,但只能在我们的经验中习惯性地将这两者联系在一起。休谟对人类理性局限性的怀疑以及对因果关系确定性的挑战在其影响力上具有革命性,动摇了传统形而上学和认识论的基础。
曼祺_MatchQ
:
很好的一个哲学视角启发。(感谢分享!
一个从35亿年前DNA诞生开始的智能故事。
从智能的历史和本质,我们也自然延展到了一些新变化的讨论,比如 o1 是真的在做“推理”吗? 为什么 VLA 可能不是应对开放世界的最好方法。
八月风暴:谢谢曼祺 🙏
1:27:18 关于Hinton,补充一个国内不为人知的小故事。Hinton当年在我校读博时,与博导关系不佳,能够毕业的核心原因是他父亲是院士,他导师也是院士。倘若传出院士的儿子博士辍学,有损声誉。因此最终让他毕业,但是博后的位置就没有给他,因此Hinton远走北美。
Ghost#1211
Ghost#1211
2025.3.20
听马老师的分享能学到太多了,感谢
2:15:28 抛开营销和商业化的东西,了解一下真正的底层的东西很有必要,我们被“市场”带跑偏了太多,这一期很好……
探索者R
探索者R
2025.3.18
學習很多,非常感謝
乐_冰
乐_冰
2025.3.19
女主播说话的时候我看了两次是不是我把播放速度设置成了1.5倍
乐_冰:我脑子里的场景是未来机器人统治了地球,女主播和教授是人类反抗军的特工在接头。主播急切地三句并一句,教授保持冷静从容回答。
曼祺_MatchQ
:
是指开场吗?还是中间语速也太快了?
7条回复
旭坤
旭坤
2025.3.19
没有啥有价值的信息
弋戈_YG
弋戈_YG
2025.3.19
一直强调学术界要搞清楚原理,但是搞清楚了什么原理呢… talk is cheap
艾木:你可以先去读读马老师团队的论文。
弋戈_YG:他们做的所谓benchmark, 测试图片识别的准确性什么的,不知道有什么意义。工程届的人不知道么,有什么增量认知,能不能指出一两条。
Ragn
Ragn
2025.3.20
53:17 被启发了 卷是因为大家都在做同样的事
干货满满
21灰
21灰
2025.3.18
先听了马教授去年年中录的质疑scaling law,再听这期,觉得这才是真的学术人👍
感谢播主。
还没听完,已经get到也很认同的一点,大模型没有护城河,壁垒在数据+算力。
树杨
树杨
2025.3.18
说的真好,语言文字就是 DNA
谈的挺好,厉害啊