Vol.18 Aha！半小时听懂DeepSeek推理能力从何而来

代码时光机

29分钟 ·2个月前

1990

·

23

看了DeepSeek-R1的论文，我觉得它是如此简洁，推理能力的培养是如此的水到渠成（甚至对人类自己的教育都有些启示意义），因此录制了这期节目，帮助更多的人了解这个简单又动人的算法设计。相信只要用过DeepSeek的深度推理功能，都会对它超长的思维链印象深刻，听了这期节目就能明白这样的思维链是怎么培养出来的 :)

一些有关的单集：

《Vol.1 从神经元到大模型需要几步？》可以建立对人工智能的基本概念；

《Vol.13 高频交易究竟在捣鼓什么东西？》搞懂DeepSeek母公司幻方量化都做些什么；

《Vol.17 英伟达垄断的不是显卡而是CUDA》险些被DeepSeek打脸的上一期节目。

录制只能在楼下鞭炮的间隙中进行，若有听感损失敬请谅解。。。抛砖引玉，欢迎评论区对论文内容做批评、补充 :)

P.S.强化学习的优化函数

展开Show Notes

2025.1.31

这期内容非常不错，能分享内容的文档吗

里维糖

:文档……只草草列了下提纲😗

胖胖的Ryo:想吃猪脚饭

2025.2.16

听了几期，在不听的时候，突然脑子🧠里会催眠般响起BGM🎵，我怀疑这个人的意图，是注入某种代码，我觉得你可以取消bgm，内容够好了。

里维糖

:哈哈，助眠也是我的一个意图😗

2025.2.07

前3分钟的声音好像左右声道不同步啊。
我没进软件看声谱，但明显感觉不大对

TORW:后面8分钟以后的时候又出现了

里维糖

:还有这事😲我没有分channel进行录制诶，音量如果有波动倒是有可能，因为楼下放鞭炮所以分段录的

华灯初上_ZkpV

2025.2.10

让模型得到最佳回答是训练的目的，但是如何评判是否最佳，通过函数，函数值越大，答案最佳。这种转换有点像通信里面的信息是用比特的形式在传播一样，有点妙

里维糖

:“知识以何种形式在模型中生长” 这个话题下一期也会聊聊:)

华灯初上_ZkpV:Ds又给模型建立了奖励机制，得到的答案最佳，奖励越大

2025.2.06

感谢！听君一席话，真的听懂了一些～可以聊聊对各个互联网厂大模型布局的看法吗？

码农雪人儿

2025.1.31

想你这期会说这个话题，果然来了！

里维糖

:心有灵犀了 :)

2025.2.26

开头的 BGM不错，请问是什么

里维糖

:i walk this earth all by myself

2025.2.04

对sft的解释是不是有点问题呀好像和rlhf弄反了

wrz_s5yU:sft只会给优质的prompt+output的数据对不会给负面反馈

里维糖

:我想你指的是我举的那个“DeepSeek是哪个国家的公司”这个例子，确实，这是基于人类的反馈（RLHF），但这个例子是想说“监督的意思是人类视角的引入”，所以举了一个例子来说明“人类视角指的是什么”。至于SFT是为了让模型模仿特定的案例，这没错。指令数据集一般就是很优质的 :)

在小宇宙打开