91. 逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”张小珺Jùn|商业访谈录

91. 逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”

201分钟 ·
播放数54518
·
评论数180

2025年这个春节,DeepSeek一举改写了全球AGI大叙事。在万般热闹之际,我们特别想沉下来做一些基础科普工作。

在《商业访谈录》89集节目中,我邀请了加州大学伯克利分校人工智能实验室在读博士生潘家怡,为大家对照解读了春节前的DeepSeek-R1-Zero、R1、Kimi发布的K1.5,以及OpenAI更早发布的o1技术报告。这些模型聚焦的都是大模型最新技术范式,RL强化学习,简单来说就是o1路线。

今天这集,我邀请的是香港科技大学计算机系助理教授何俊贤。他的研究方向是大模型推理,从很早就开始关注DeepSeek的系列研究。我们会focus在最近引发全球AI届关注的DeepSeek上。

何老师将带领大家从DeepSeek的第1篇论文开始,阅读经过挑选的这家公司历史上发布的9篇论文。

我们希望帮助大家从一个更延续、更长期、也更技术底层的视角来理解DeepSeek,以及它所做的复现与创新工作;与此同时也希望能让更多人感受到技术之美

(如果如果,你觉得光听还不够刺激,觉得一定要坐在电脑前看着投屏、拿起纸笔学习更有沉浸感…如果你实在是真心想要找虐的话…请前往:含投屏的视频版本。嘿嘿!预祝你学习顺利啦!2025我们和AI共同进步!)
我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)
03:01 讲解开始前,先提问几个小问题

整体风格:Open、Honest、低调、严谨的科学态度

DeepSeek基座模型

21:00 《DeepSeek LLM
Scaling Open-Source Language Models with Longtermism》技术讲解

45:48 《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》技术讲解

01:06:40 《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》技术讲解

01:40:17 《DeepSeek-V3 Technical Report》技术讲解

DeepSeek推理模型

02:05:03 《DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence》技术讲解

02:12:16 《DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence》技术讲解

02:47:18 《DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data》和《DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search》技术讲解

02:52:40 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》技术讲解

03:01:41 9篇论文到这里都讲完啦!最后我们一起强化学习一下!

关于强化学习往期节目:

AGI范式大转移:和广密预言草莓、OpenAI o1和self-play RL|全球大模型季报4

和OpenAI前研究员吴翼解读o1:吹响了开挖第二座金矿的号角

王小川返场谈o1与强化学习:摸到了一条从快思考走向慢思考的路

逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”

开源一场关于DeepSeek的高质量闭门会:

一场关于DeepSeek的高质量闭门会:“比技术更重要的是愿景”

【更多信息】

联络我们:微博@张小珺-Benita,小红书@张小珺

更多信息欢迎关注公众号:张小珺

展开Show Notes
张小珺
张小珺
2025.2.12
置顶
如果如果,你觉得光听还不够刺激,觉得一定要坐在电脑前看着投屏、拿起纸笔学习更有沉浸感…如果你实在是真心想要找虐的话…请前往:含投屏的视频版本https://b23.tv/N5ZMX0L
Kanon可农:哈哈哈哈哈真心找虐,暴露了你录制时候的心态了😂
L小喵不乖:我正想问有没有视频
13条回复
张小珺
张小珺
2025.2.11
我们要和AI共同进步哦!为大家整理了一下以上提到的论文链接:
DeepSeek LLM https://arxiv.org/pdf/2401.02954
DeepSeek MoE https://arxiv.org/pdf/2401.06066
DeepSeek-Coder https://arxiv.org/pdf/2401.14196
DeepSeekMath https://arxiv.org/pdf/2402.03300
DeepSeek-V2 https://arxiv.org/pdf/2405.04434
DeepSeek-Prover https://arxiv.org/pdf/2405.14333
DeepSeek-V3 https://arxiv.org/pdf/2412.19437
DeepSeek-R1 https://github.com/deepseek-ai/DeepSeek-R1?tab=readme-ov-file#deepseek-r1
一只喵猫喵:感谢,分享万岁👏
羊小凡:请问一下 有没有录频版本的呀
7条回复
Yiho
Yiho
2025.2.11
小珺一举创新播客新业态——论文学习班!
Atma_:真的很需要这种,李沐的课多火可见一斑
pleasego
pleasego
2025.2.11
不敢想象小珺每一期高质量的播客背后要付出多少准备工作呀,从很早之前就留言说过小珺的播客是我心里华语世界最好的商业科技播客,这个想法在今天更确定了
HD569432n:主要是因为访谈的人真的懂,请来的人质量高
生而为猫奴:+1,感覺把其他播客甩得越來越遠了
6条回复
Mo记
Mo记
2025.2.11
07:25 主持人paper的发音有点奇怪🤣
marcher233:你不说我还一直没听懂呢…
四十不获:08:14 同感,好奇怪的
4条回复
小宇宙要成为我的学习app了!👀
阿逗_:同感
, '•請问 没有视频 版 吗'•,小珺 w O也想 看`•荧幕 解读'·, (‾᷄꒫‾᷅)
张小珺
:
(搓手手)Nico別急嘛——✨視頻版正踩着七彩祥雲趕來啦!(>.<)ノ⌒☆ 熒幕解讀の魔法特效全開預備——, 記得調好鬧鐘蹲住喲!(‾◡◝ )
NiCO酱和她的小布:`• 建议 开个b站 账号!'•, ✶· ˚ 。· ✧
4条回复
Mo记
Mo记
2025.2.12
1:05:43 DeepSeek MoE的takeaways
1️⃣MoE是稀疏模型,相对稠密模型而言,因为每次只激活部分专家,同参数大小激活更节省算力而智能程度差不多,同算力可支持更大参数模型提升智能程度。
2️⃣创新点①:设计共享专家。所有inquiry 都激活共享专家,但只激活部分非共享专家。
3️⃣创新点②:设计更多专家。相对原来的MoE大多为8个,16个专家,本次DS验证时使用2个共享专家,64个非共享专家,虽然这次参数规模只有2B和16B。
4️⃣创新之所以为创新,是敢于承担失败的风险,去投入成本尝试别人没有走过的路。
Ray____
Ray____
2025.2.11
3:20:29 不知道对没接触过算法技术的听众能不能接受这么长的技术路线梳理,但对技术背景的听众很友好。两条主线,算法与infra的联合成本优化、基础模型与训练创新范式上的稳扎稳打,最后集大成与R1,deepseek这种商业科研精神值得从业者学习,respect
200 分钟,跟纵横四海差不多长了😂,听播客也被逼着学习,赞赞赞
Kony:还好有纵横四海的训练
方进
方进
2025.2.12
25年春节的时候,我分析了deepseek的16篇论文,也写了一篇《DeepSeek技术发展主线》:https://mp.weixin.qq.com/s/ttmOgA5tFHfPtXMXp9x-ug
跟老师这边讲的差不多,老师这边讲的更详细一些。

希望这样的这个节目越来越多,很喜欢听
这个系列过于硬核了
AllenTing
AllenTing
2025.2.11
这节目形态太好了,好有启发,建议把节目内容文字版喂给deepseek,看它有什么补充和对读者的建议,再贴到shownote😆
谢谢你,小珺
Mo记
Mo记
2025.2.11
45:58 第一篇DeeoSeek LLM的takeaway
1️⃣超参数scaling law的研究,不是重复固有经验做一些保守的推进,而是深入研究底层原理,复现的同时做扎实一些原本略粗糙的内容
2️⃣公开刷板行为,指导怎么刷能得高分,坚持不刷板(同期还有昆仑万维不刷板)
山羊随机游走:刷榜
Home3k
Home3k
2025.2.11
是不是可以考虑搞个视频版
听了这期,感觉这个世界上总有人是在认真做事的,总有人会在这个快节奏的世界里有自己的节奏去踏实做事。
frank_ocean
frank_ocean
2025.2.11
the vibe of lex friedman and acquired podcast 🤣
Dwight
Dwight
2025.2.11
太硬了。好内容!
deepseek技术栈(按时间顺序):moe混合专家, mla多头注意力, share kv cache不降低计算速度的条件下节省存储空间,fp8混合精度训练,蒸馏,强化学习(用规则不用奖励)
到码头整点薯条a:resoning,continue training
到码头整点薯条a:GRPO
3条回复