104: 我给线性注意力找“金主”,字节 say No,MiniMax say Yes

104: 我给线性注意力找“金主”,字节 say No,MiniMax say Yes

87分钟 ·
播放数6387
·
评论数45

「继续来聊“注意力”,不止技术,也有研发故事。」
(本期因录音 bug,音质有波动;不时出现“变声期”,请见谅。)

上期,我们与清华的两位博士生,肖朝军和傅天予,聊了稀疏注意力机制的改进,也以注意力为线索,串起了大模型的优化史。上期主要聊了稀疏注意力。

这期,我们来聊注意力机制的另一大改进方向:线性注意力。

MiniMax 在今年 1 月发布了参数为 4560 亿的开源大模型 MiniMax-01,01 就用到了他们开发的线性注意力机制,lightning attention。

本期,我邀请了这个项目的负责人,MiniMax 高级研究总监,负责 01 模型网络架构的钟怡然,来与我们一起聊研究线性注意力的研发过程。

钟怡然曾担任上海人工智能实验室青年科学家,是新架构探索组的 PI,也就是项目负责人;他在澳洲国立大学获得博士学位,师从李宏东教授和 Richard Hartley 院士。

在 2021 年,线性注意力还是一个“看起来很美好的泡泡”,怡然和团队就开始探索线性架构的实现。

当 2024 年年中,MiniMax 开始用大量算力资源训练线性架构的 4560 亿参数的新一代模型 01 时,线性架构能在大规模模型上 work 是非共识。但闫俊杰最后拍板,投了公司超过 80% 的研发资源。

当然,训练模型不是戏剧性的梭哈。在训 01 前,MiniMax 团队通过 3700 次预训练测试,去预测这种新架构在更大参数的模型是否也有好的表现。(这其中不少都是小规模实验。)这期节目,我们完整聊了这个过程。

在效率上线上,从计算方法推导,当序列非常长,线性注意力在计算效率上的的优势会越来越大于稀疏注意力。但从效果上,也就是线性注意力的模型,能否和 Transformer 模型一样聪明,甚至更聪明。现在还没有谁能给出有绝对说服力的答案。

这也是之后 MiniMax 的技术进展,可能会揭晓的悬念。

本期嘉宾:
钟怡然,MiniMax 高级研发总监

时间线跳转:
- MiniMax 开源:为什么第一个模型选了 01
05:46 开源是为了展示架构创新,吸引更多人才
08:20 开源后社区反馈集中在推理效率与多模态支持,MiniMax 把推理优化贡献到了开源框架 vLLM 中
10:20 开源要有影响力需要更多工作,MiniMax-01 当前开源版本参数过大,个人开发者确实参与受限

- MiniMax-01 中的线性注意力改进:7 混 1 结构,100 万 Token 序列长度下提速 2700 倍
13:11 线性注意力的核心思想是通过调整QKV矩阵计算顺序,将复杂度从二次降至线性
15:26 稀疏注意力(如NSA、Mobile)在小模型表现尚可,但线性注意力在参数规模扩大后优势显著
20:23 纯线性注意力在召回能力(如“大海捞针”任务)上存在缺陷,团队通过混合架构(每 7 层线性注意力加入 1 层 Softmax 注意力)优化
27:31 混合架构在 100 万 Token 序列长度下实现 2700 倍加速,同时模型效果优于纯 Transformer
28:27 3700 次小模型实验验证架构可扩展性,扩大规模前要做充分验证

- 21 年开始的线性架构研发之旅:从“美好的泡泡”到 4560 亿参数大模型
30:24 2021 年开始做线性注意力研发时,它还是一个“美好的泡泡”
35:19 “我们是最懂线性注意力的人”,为什么这个模型不诞生在我们手上?
41:20 50% 的把握,投 80% 的资源
42:46 上规模后,发现了召回缺陷;一张大表,3700 个预训练任务
50:46 一个测试例子:MiniMax-01、DeepSeek-R1 表现不及 Kimi-k1.5,可能和数据构造有关
52:52 线性架构也许是更适合推理模型的架构
01:00:51 线性架构能 work,仍是非共识

- “道心”之争
01:02:00 钟怡然坚信线性注意力是“无损优化”,混合架构效果甚至优于传统Transformer
01:11:23 MiniMax计划4月发布深度推理多模态模型,整合线性架构、原生多模态与强化学习
01:22:18 AGI愿景 vs 竞争驱动:DeepSeek 爆火后,但不改变产品是技术最大的证明

相关链接:
103:用 Attention 串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进
99:MiniMax创始人闫俊杰:做大模型,千万别套用移动互联网的逻辑
71:“如果相信只靠 Scailng Laws 就能实现 AGI,你该改行了”,与香港大学马毅聊智能
101:与王小川聊AIX医疗:通向“生命科学的数学原理”
103 期晚点聊图文版:《大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》

附录:
QKV 计算:Query-Key-Value计算,注意力机制中用于生成上下文感知向量的核心步骤。
Mamba:由卡内基梅隆大学在2023年提出的基于状态空间模型的高效长序列建模架构。
Jamba:由 AI21 Labs 在 2024 年提出的结合 Mamba 与 Transformer 的混合架构模型。
vLLM:由加州大学伯克利分校在 2023 年提出的开源大模型推理加速框架。
有损优化:以牺牲部分模型性能为代价换取计算效率或资源节省的优化方法。
无损优化:在不影响模型性能的前提下提升计算效率或资源利用率的优化策略。
(另,更多关于线性注意力机制的术语也可见上期注释)

剪辑制作:Nick

本期主播:小红书 @曼祺_火柴Q,即刻 @曼祺_火柴Q

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

展开Show Notes
置顶
上期,聊了稀疏注意力。这期,聊注意力机制的另一大改进方向:线性注意力。嘉宾是 MiniMax 高级研究总监,负责 MiniMax-01 模型网络架构的钟怡然。他开发了 1 月中旬开源的 MiniMax-01 中使用的线性注意力架构。
怡然在 2021 年线性注意力还是“美好的泡泡”时就开始关注它的实现。这我一个 AI 研究者关注与投入小众方向的过程。

(本期因录音 bug,音质不太好,有波动,不时出现“变声期”,请见谅。)
雨荷HKSG
雨荷HKSG
2025.3.04
哇换了一个新logo更醒目
一克拉拉
一克拉拉
2025.3.06
只有我觉得新logo不好么😂
原来休闲轻松的视觉vs高质量而又普惠的内容,反而有种反差萌的特点,让社畜听众感到放松。现在视觉很严肃 把文案换成焦点访谈也没违和感😬
一克拉拉:哈哈 醒目的目的肯定是达到了。不过这种事也很主观。主要看晚点团队希望呈现的品牌调性啦。会一直粉你们🤩
曼祺_MatchQ
:
😄 焦点访谈(老白和水均益的严肃脸已浮现在我眼前 其实换logo 过程中的简单想法之一,是希望更醒目一点
5条回复
wanying
wanying
2025.3.04
哇新封面好看
霜雪明
霜雪明
2025.3.07
1:25:00 101期嘉宾王小川的观点认为,语言资料是人类对现实世界的抽象凝练,高度浓缩、容易找到规律。本期嘉宾在最后认为,语料就积累了那么多,快用完了,后面(无论大家愿意不愿意)要转向现实世界。这两个观点也不完全矛盾。只是说,如果王小川的理解准确,那接下来模型进一步发展,会面临很大阻力。
黑猫枕头
黑猫枕头
2025.3.05
哈哈为什么我反而是感觉到了研究的热情呢,我觉得这种真的勇气可嘉,新的方向但又要背负着成本压力。
kamu
kamu
2025.3.04
后半段谈技术路径的选择比前半段有意思。主持人一直拿ds-r1做对标,估计嘉宾的内心是崩溃的😂。个人感觉ds-r1从产品的角度也是一个好产品,比如输出整个推理链(让模型思考过程透明)、推理+联网搜索,还有就是输出速度非常快,现在都成了各个大模型的标配了。

之前采访Mini Max老板,他有个观点就是大模型没有数据飞轮驱动效应,所以用户数不影响大模型的能力,这个阶段要专注研究而不是应用,有一定道理;但是,人的智能其实就是靠与外界的不断互动而不断进步的,也就是说智能需要数据飞轮驱动,一个不能利用输入的数据进化自己的AI,估计也没有什么前途,并且要高效地利用输入数据,而不是每次都要经过高成本的训练才会有进步……所以AI的agi之路并没有那么容易……所以AI也需要丰富的应用生态来进化自己,做应用的也赶快做吧……
曼祺_MatchQ
:
可以叫我曼祺(主持人感觉好严肃 😄
kamu:Yes,Miss Match!👌
HD482838j
HD482838j
2025.3.07
对比sparse attention 和 linear attention 的时候,嘉宾说 linear attn 无损是因为省掉了本来就冗余的操作,而 sparse attn 加了 mask 就有损,似乎没什么道理?为什么 sparse attn 省掉的就不是冗余的操作?
YR-MiniMax:根据实验结果反推的。sparse att在scaling的时候,模型越大,跟full att的差距会更明显。hybrid linear att反而会比full att好的更明显。
_Lyn_
_Lyn_
2025.3.04
scaling law实验只做到7B模型,最终放出来的是456B的模型,这之间的gap如此之大,应该是还有后续的模型帮助给scaling law描点了吧?想知道中间真正训过的不同大小的模型还有哪些,进而进一步支持了scaling law的实验。
YR-MiniMax:嗯,中间有一个60B的业务模型,然后再升到这个456B的模型。不过先期实验就到7b就结束了。
曼祺_MatchQ
:
😄怡然自己来回答了
Rock修
Rock修
2025.3.04
好专业的对谈,感觉主持人太不容易了
zhoulm
zhoulm
2025.3.07
这这期很好👍
霜雪明
霜雪明
2025.3.07
1:17:24 Kimi最近也跟进了k1.5长思考功能,能看到思维链,各位的使用体验如何?
我觉得大部分时候和DS的深度思考相当,但在数理逻辑推理的时候会有一些区别。
Kimi没有开源,不清楚他们的技术路径,但印证了嘉宾的观点:没什么技术壁垒,其他公司能在三个月内追上来。
如果用 RNN 的目的是为了支持更大的窗口,那么用有限的隐空间去承载无限的信息注定达不到这个目标(Hybrid 的确是一个折中的方案)。我更加好奇 Gemini 2.0 是如何在性能这么优秀的情况下还能有 2M 窗口的。我猜测除了稀疏注意力之外应该还有独家的 TPU 软硬件协同优化。
Edison_Htxr
Edison_Htxr
2025.3.12
曼祺最近节目的更新频率高的我都有点消化不良了,刚听完稀疏注意力,这边又来了线性注意力😂
曼祺_MatchQ
:
😄 正好可以一起听
hustww
hustww
2025.3.05
主持人很棒,就问题发问,没有泛泛而谈
HD45408o:中间有一段时间还挺 aggressive 的,快要把嘉宾问得招架不住
同时请稀疏注意力和线性注意力的嘉宾,直接pk,会不会很有意思。😏
曼祺_MatchQ
:
其实这两个也不是对立的方向,做稀疏的也有可能做线性的探索 😄 而且现在 MiniMax 用的也是一个混合方案。至于线性是不是有损的,这个确实可能是个 PK 点
表现力
表现力
2025.3.05
非常干货,本来是上班摸鱼在听,结果比上班还辛苦😆
HD482838j
HD482838j
2025.3.07
另外关于longctx有一个疑问,目前longctx的瓶颈是在attn结构上,还是在训练数据上,如何构造超长ctx 的训练数据?我理解,现阶段 linear attn 的最大价值是不是降低计算复杂度以大幅降低成本?
曼祺_MatchQ
:
还有提升速,前提是效果不能打折。 AI 界对线性注意力的疑虑就是它是否能保证效果?然后在这么大规模模型上做线性架构的确实目前也只有 MiniMax。所以现在是非共识。 我觉得可能是因为 01 还不是一个当前大家最关注的推理模型,MiniMax 之前技术社区的传播也做得不多。所以这个模型之后,也没有说压倒性地扭转一些对线性注意力的观点。
沙茶
沙茶
2025.3.04
哈哈哈,道心之争
人的大脑就是稀疏注意力的, 通过忽略感知到的99%以上信息来减少记忆空间和提升效率…实在想不通现阶段算力不冗余的情况下..浪费这么多资源来提升那么少量的精度…猜想现在应该也跑不到32b以上