Vol.18 Aha!半小时听懂DeepSeek推理能力从何而来代码时光机

Vol.18 Aha!半小时听懂DeepSeek推理能力从何而来

29分钟 ·
播放数1970
·
评论数23

看了DeepSeek-R1的论文,我觉得它是如此简洁,推理能力的培养是如此的水到渠成(甚至对人类自己的教育都有些启示意义),因此录制了这期节目,帮助更多的人了解这个简单又动人的算法设计。相信只要用过DeepSeek的深度推理功能,都会对它超长的思维链印象深刻,听了这期节目就能明白这样的思维链是怎么培养出来的 :)

一些有关的单集:

《Vol.1 从神经元到大模型需要几步?》可以建立对人工智能的基本概念;

《Vol.13 高频交易究竟在捣鼓什么东西?》搞懂DeepSeek母公司幻方量化都做些什么;

《Vol.17 英伟达垄断的不是显卡而是CUDA》险些被DeepSeek打脸的上一期节目。


录制只能在楼下鞭炮的间隙中进行,若有听感损失敬请谅解。。。抛砖引玉,欢迎评论区对论文内容做批评、补充 :)

P.S.强化学习的优化函数



展开Show Notes
常和森
常和森
2025.1.31
这期内容非常不错,能分享内容的文档吗
里维糖
:
文档……只草草列了下提纲😗
胖胖的Ryo:想吃猪脚饭
3条回复
HD478695x
HD478695x
2025.2.16
听了几期,在不听的时候,突然脑子🧠里会催眠般响起BGM🎵,我怀疑这个人的意图,是注入某种代码,我觉得你可以取消bgm,内容够好了。
里维糖
:
哈哈,助眠也是我的一个意图😗
XYZSUN
XYZSUN
2025.2.07
前3分钟的声音好像左右声道不同步啊。
我没进软件看声谱,但明显感觉不大对
XYZSUN:后面8分钟以后的时候又出现了
里维糖
:
还有这事😲我没有分channel进行录制诶,音量如果有波动倒是有可能,因为楼下放鞭炮所以分段录的
让模型得到最佳回答是训练的目的,但是如何评判是否最佳,通过函数,函数值越大,答案最佳。这种转换有点像通信里面的信息是用比特的形式在传播一样,有点妙
里维糖
:
“知识以何种形式在模型中生长” 这个话题下一期也会聊聊:)
华灯初上_ZkpV:Ds又给模型建立了奖励机制,得到的答案最佳,奖励越大
alsyyzzzl
alsyyzzzl
2025.2.06
感谢! 听君一席话,真的听懂了一些~ 可以聊聊对各个互联网厂大模型布局的看法吗?
想你这期会说这个话题,果然来了!
里维糖
:
心有灵犀了 :)
汤姆_ucsu
汤姆_ucsu
2025.2.26
开头的 BGM不错,请问是什么
里维糖
:
i walk this earth all by myself
wrz_s5yU
wrz_s5yU
2025.2.04
对sft的解释是不是有点问题呀 好像和rlhf弄反了
wrz_s5yU:sft只会给优质的prompt+output的数据对 不会给负面反馈
里维糖
:
我想你指的是我举的那个“DeepSeek是哪个国家的公司”这个例子,确实,这是基于人类的反馈(RLHF),但这个例子是想说“监督的意思是人类视角的引入”,所以举了一个例子来说明“人类视角指的是什么”。 至于SFT是为了让模型模仿特定的案例,这没错。指令数据集一般就是很优质的 :)
5条回复