94. 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”张小珺Jùn|商业访谈录

94. 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”

156分钟 ·
播放数30224
·
评论数88

今天这集节目延续我们的论文系列。我邀请MIT计算机科学与人工智能实验室的在读博士松琳,来给大家解读上个星期DeepSeek和Kimi发布的全新技术报告

DeepSeek和Kimi又一次技术对垒。在同一天发布论文,两篇集中在改进注意力机制以处理长文本任务上。而春节前,MiniMax也发布了一篇注意力机制相关的论文

松琳将带领大家阅读这3篇注意力机制有关的文章,解析不同模型公司的技术哲学和路线选择。

我们希望能让更多人领略AI科技平权,体验技术之美。

2025,我们和AI共同进步!

(如果如果,你觉得光听还不够刺激,觉得一定要坐在电脑前看着投屏、拿起纸笔学习更有沉浸感…如果你实在是真心想要找虐的话…请前往:含投屏的视频版本。预祝你学习顺利啦!)
我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)
02:30 讲解开始前,先提问几个小问题
15:36 DeepSeek最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》讲解

论文中文名:《原生稀疏注意力:硬件对齐且原生可训练的稀疏注意力》

路线:稀疏注意力机制

本篇工作最大亮点:Native Sparse Attention 全线压制 Full Attention

01:19:14 Kimi最新论文《MoBA: Mixture of Block Attention for Long-Context LLMs》讲解

论文中文名:《MoBA:面向长文本上下文的块注意力混合架构》

路线:稀疏注意力机制

01:44:42 MiniMax春节前的论文《MiniMax-01: Scaling Foundation Models with Lightning Attention》讲解

论文中文名:《MiniMax-01:利用闪电注意力扩展基础模型》

路线:线性注意力机制

02:30:07 最后强化学习一下

【技术之美】系列:

逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”

逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”

【更多信息】

联络我们:微博@张小珺-Benita,小红书@张小珺

更多信息欢迎关注公众号:张小珺

展开Show Notes
张小珺
张小珺
2025.2.24
置顶
如果如果,你觉得光听还不够刺激,觉得一定要坐在电脑前看着投屏、拿起纸笔学习更有沉浸感…如果你实在是真心想要找虐的话…请前往:https://b23.tv/Cvn3plQ
贾正正经:要是能请李沐过来给讲讲就更好了😀
Chu29:太棒了!这期讲得很深入!听着比自己硬啃论文好多了!
6条回复
Baca
Baca
2025.2.23
感觉可以开一个子栏目reading group
Ethan2012
Ethan2012
2025.2.24
小宇宙需要一个投ppt pdf的功能了。有些需要结合图文来理解
南柯_SEA1:啊b上有
HD321933z
HD321933z
2025.3.01
我算是同行,但我觉得这位MIT嘉宾讲得不怎么样,懂的还是可以懂,但又没啥深度。可是讲的又不够浅显清晰,没懂的还是听不懂。挺尬的
SuperSuperCa:+1 表达能力好差
SuperSuperCa:抓不住重点
5条回复
张建松
张建松
2025.2.24
专业性太强,门卫汉真是听不懂。
康纳德
康纳德
2025.2.24
重生之我在小珺播客学习AI论文
张小珺
张小珺
2025.2.24
期待和你一起读论文,领略科技平权,感受技术之美ヾ(≧▽≦*)o
小饼饼
小饼饼
2025.2.24
感觉这个系列需要开一个油管/B站账号,不然根本不知道“这里”“那里”指代什么😧
生而为猫奴:有的,油管搜张小珺就有视频
_Lyn_
_Lyn_
2025.2.24
能听懂细节可以抓细节,听不懂细节可以抓思想,哪怕基本思想理解不透也可以感知做每部分的基本动机和目的。这也是小珺的几个问题在试图给出来的解答,让大部分听众都有take home message,这基本是一个好的讲者面对不同专业度的听众能做到的比较好的报告的样子。
如果有人想要卷的快一点,可以看我整理的这个文档,《DeepSeek认知之旅》文档链接:https://kcnrgc2yrax7.feishu.cn/docx/AJo5dVRS7ortyEx1OW8cX9KBngd?openbrd=1&doc_app_id=501&blockId=doxcncVubbqQeHtN9klREuWVgUQ&blockType=whiteboard&blockToken=KrGqwrZKDh2PkpbNR6hcWn2Rn7b#doxcncVubbqQeHtN9klREuWVgUQ
Fazzie
Fazzie
2025.2.24
linear attention之母来了
脆皮Crisp
脆皮Crisp
2025.2.24
院长,我想从李沐老师那里 quit 了,我找到新导师了
Yiho
Yiho
2025.2.24
论文学习班做大做强,继续开班👏
非常感谢张小珺您推出系列追踪DS 论文的讲解,虽然是高强度的AI科技信息,一时间难以消化,但对我理解AI和DS 是什么具有莫大的学习效益。
再次感谢
坚持听,第二遍就好很多了,第三遍就已经觉得比较轻松了
狲狲
狲狲
2025.2.24
journal club是吧
雨荷HKSG
雨荷HKSG
2025.2.24
好温柔啊!
HD999608j
HD999608j
2025.3.11
太多嗯嗯啊啊了 开了1.2倍速还是找不到重点🥹
HD568946l
HD568946l
2025.3.08
这集听的太累了
Harryooo
Harryooo
2025.3.07
像在听课,跟不上了