EP61 一期节目粉碎所有关于DeepSeek的谣言：训练成本600万、冲击英伟达、五万张H100、模型蒸馏、黑客攻击

120分钟 ·2个月前

40351

101

本期节目我们来聊聊近期最火热的话题——DeepSeek。这个春节，可以说是一个"DeepSeek春节"。相信大家都有看到，不管是朋友圈、小红书、微博，还是各大媒体平台，都在疯狂讨论DeepSeek，谣言与热度齐飞。

在国内狂欢的同时，我们也看到DeepSeek的爆火在全球范围内引发了诸多挑战。其中包括监管层面的问题，比如欧盟各国对DeepSeek展开的调查甚至禁用，也有来自美国AI圈甚至政府层面的质疑，有不承认DeepSeek的技术创新的，有怀疑DeepSeek芯片来源不合法的，也有说DeepSeek蒸馏ChatGPT是“偷窃”美国顶尖技术的（看得出来DeepSeek给美国那边造成多大的冲击了哈）。

总之整个讨论氛围是高度赞誉中夹杂着不少质疑，还有全网乱飞的假消息。所以，我们这期节目邀请了三位大咖，来跟我们一起讨论最近DeepSeek的爆火、质疑和谣言。我们从DeepSeek全球爆火过程拆解开始，聊到了DeepSeek R1的核心突破、训练成本600万美元的争议、对英伟达股价的冲击、五万块H100芯片的谣言、模型蒸馏和“偷窃”指控、美国对华科技竞争政策以及狂欢之后DeepSeek R1带来的长期影响。

嘉宾：

庄明浩：《屠龙之术》主播，我称之为国内第一AI行业观察者，去年底庄老师做的《132页PPT记录AI行业这一年》震翻了所有人。

张涛：头部出海AI应用Monica的产品合伙人，也是传说中的顶级AI产品经理（42章经：《一个顶级 AI 产品经理的自我修养 | 对谈光年之外产品负责人 Hidecloud》）。

张鹏：公众号东不压桥研究院的主理人，关注全球尤其是中美地缘政治，尤其是在科技领域的竞争政策，有非常深入且广泛的研究（《特朗普2.0时代的中美科技竞争》）。

声明：本期节目中嘉宾发言不代表其所在机构观点，欢迎有不同想法的朋友在评论区跟我们讨论、互动。也欢迎加入我们的听友群（微信 Lily_letitbe，备注：听友群）参与互动。

本期节目你能听到：

DeepSeek全球爆火过程全拆解

00:06:03 Deepseek爆火观察：出口转内销、墙内开花墙外香

00:08:35 DeepSeek的创新是对以美国M7为代表的巨额AI基建投资叙事的一种挑战

00:10:14 DeepSeek与黑神话悟空的双厨狂喜（冯骥的微博）

00:10:51 英伟达老黄内部信、梁文峰知乎回应—AI创作的狂欢，无数人被骗，谣言与热度齐飞

00:12:51 美国AI沙皇五步绝杀—也是AI写的！（正版看这里《特朗普的“AI沙皇”David Sacks谈DeepSeek》）

00:13:38 《中美人工智能能力脱钩法案》，会导致每个下载 DeepSeek的美国人被罚一亿美元？—还是假的（正经分析看这里《“美中人工智能脱钩”法案，能通过吗？》）

00:14:14 顶级AI产品经理视角下的DeepSeek全球爆火过程

00:16:17 DeepSeek在美国：从核心AI圈讨论到彻底破圈，还得感谢Mark Andreessen（硅谷顶级风投机构a16z的联合创始人）

00:18:24 AI产品经理的心潮澎湃和“成了！”

DeepSeek R1到底强在哪里？

00:19:37 DeepSeek V3创新已经很强，但不过就是另一个GPT4o

00:20:32 DeepSeek R1第一次验证了ORM强化学习路径（你问OpenAI O1？—没公开就等于没有哈）

00:20:43 了解DeepSeek R1更多技术细节（张小珺商业访谈录：《逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告》）

00:21:41 DeepSeek破圈根本原因：全球第一个既有推理模型能力，又可以实时搜索知识，并不断结合、反思的产品，带来全新用户体验

00:27:17 美国主流媒体及学界对中国AI发展长期冷落，英语世界信息极度落后，假消息满天飞

00:28:12 英文世界第一大假消息：DeepSeek 秘密武器罗福莉

00:28:46 英文世界第二大假消息：DeepSeek只是幻方量化的副业项目

DeepSeek R1训练成本只要600万美元？

00:29:26 英文世界第三大假消息：DeepSeek R1训练成本只要600万美元，打垮英伟达算力叙事

00:30:22 回本溯源详解“DeepSeek R1训练成本600万美元”

00:32:42 “DeepSeek 成本600万美元”在美舆论逐渐离谱全过程

00:32:57 实际成本对比：600万美元干了几千万美元的活

00:35:21 美国主流AI叙事：科技巨头百亿美金级投入 vs 主要参与者数十亿美金级投入 vs 挑战者数亿美元级投入

00:37:11 在美国科技巨头数千亿美金的AI基础设施投入面前，DeepSeek的600万美金变成神话

00:38:38 现实的成本对比叠加中美各方民族情绪后，事实变得不重要了

00:42:14 DeepSeek爆火给国内做AI基础设置、云服务、套壳产品的厂商带来的机会

DeepSeek R1的出现对英伟达到底是利好还是不利？

00:44:04 DeepSeek R1的出现对英伟达到底是利好还是不利？谁也说服不了谁

00:46:44 美国西岸的都在买英伟达，而东岸的都在卖英伟达

00:47:40 AI产品经理视角下，未来三年AI推理算力需求可能扩大100倍

00:48:16 算力需求是上涨了，但英伟达都能吃掉吗？

DeepSeek有五万块H100芯片？

00:49:49 DeepSeek有五万块H100芯片？白宫都惊动了，但还是假消息

00:51:48 Deepseek R1的出现，说明美国出口管制自食恶果，还是出口管制不足，应继续加强？

00:53:59 DeepSeek到底有多少张卡？

00:56:27 但凡读过DeepSeek V2和V3两篇论文的人，都不可能相信DeepSeek有5万张H100

美国对DeepSeek模型蒸馏、“偷窃”指控

00:57:36 OpenAI/美国质疑Deepseek蒸馏其先进模型，“偷窃”美国先进技术，到底成不成立？

00:58:03 什么是模型蒸馏

01:00:14 模型蒸馏是行业内公开的“秘密”

01:00:52 蒸馏在整个模型训练过程中只是一个小的技术点

01:01:22 DeepSeek蒸馏ChatGPT的谣言是如何产生的？

01:02:34 为什么DeepSeek APP会回复说自己是ChatGPT？

01:05:20 OpenAI现有产品设计上，已经封锁了真正意义“模型蒸馏”的可能性

01:07:25 从法律角度看美国对DeepSeek偷窃美国模型技术的指控

01:10:01 模型蒸馏是否违法，边界模糊，尚无定论

01:11:22 美国政府对“模型蒸馏”反应激烈

01:12:43 技术上，限制“模型蒸馏”实操性不大

01:13:08 OpenAI自己面临非法爬取全网数据、广泛侵犯知识产权的问题，指责DeepSeek蒸馏违法，未免太过双标

01:15:30 美国对“模型蒸馏”如此敏感，是因为他们认为中国是在“搭便车”

01:16:55 AI合规问题本质上是新技术发展与既有规则体系之间的矛盾，大家都还在探索期

01:17:52 全球各国挑战DeepSeek数据合规，是否过于严苛且双标？

01:19:03 当今地缘政治环境下，任何一个科技头部应用的出海落地都不是一件简单的事情

美国对华科技竞争政策全解

01:20:08 美国对华科技竞争政策全解

01:21:04 拜登政府时期：芯片出口管制、中美数据脱钩、对华科技投资禁令

01:22:59 川普时期：中美贸易问题和科技竞争问题一盘棋

01:23:34 川普政府可能进一步限制美国AI人才向中国流动

01:24:16 美国国内产业扶持 + 国外限制中国AI发展：确保AGI首次发生在美国

01:25:10 DeepSeek R1的火爆，引发美国对华AI竞争恐慌，恐带来过度回应和反制措施

01:27:51 欧盟看中国科技企业出海：就事论事，变相收“监管税”

01:29:02 美国看中国科技企业出海：国家安全威胁，监管规则不断完善，有意识地推动双方脱钩

01:31:05 创业者视角：放弃幻想，兵来将挡，水来土掩

狂欢之后：DeepSeek爆火的长期影响

01:33:36 DeepSeek R1之后，再看国内大模型公司的护城河：原来移动互联网时代的DAU叙事结构不再适用

01:36:04 DeepSeek R1给未来AI应用的发展带来无限想象力

01:37:50 DeepSeek R1之后，再看国内AI六小龙：技术路线还跟不跟？是不是要开源？商业化怎么办？

01:40:46 DeepSeek免费开源，那他们如何盈利？

01:44:09 “异类”DeepSeek，可能是世界范围内最适合去实现AGI的

01:46:48 刚还在调侃朱老师，朱老师的“真香”就来了（《朱啸虎现实主义故事1周年连载：“DeepSeek快让我相信AGI了”》）

01:47:53 对推理模型，从业者们也都还在探索期，对接下来半年保持期待

01:49:55 2025年，可能是AI Agent实际落地年

01:51:48 模型技术极速发展、迭代迅速，实体企业应该何时实际落地投入？

01:53:30 模型必定商品化，实体企业不必在训模型层面投入

01:54:09 行业迅速变化，如果今天还不深度参与，可能就没机会了

01:55:24 DeepSeek被海外黑客攻击导致频繁停止服务，国内各安全厂商团结一致抵御---完完全全假消息！！！

01:56:49 教你如何在电脑、手机上本地部署使用DeepSeek---伪概念！！！实际效果跟满血版DeepSeek R1相差十万八千里

延展阅读：

《疯狂的幻方：一家隐形AI巨头的大模型之路》

《Ben Thompson聊DeepSeek，硅谷关于DeepSeek最值得看的一篇》

《SemiAnalysis对DeepSeek的分析报告中文译文》

《Lex Fridman 五小时播客实录：中美 AI 竞争与国运》

《为什么 Anthropic CEO 对 DeepSeek 和中国 AI 的恶意这么重？》

《欧美监管夹击，DeepSeek如何应对？》

《DeepSeek火了，美政府怎么看？》

《出口管制H20和限制模型蒸馏：DeepSeek的连锁反应？》

背景音乐：

Happy Day — Sergio Prosvirini

Dreams — Benjamin Tissot

剪辑：Libing

展开Show Notes

Lily_Letitbe

2025.2.13

置顶

本期节目文字稿节选可以到“律人行”公众号查看，链接：https://mp.weixin.qq.com/s/kWWbDh4cUWY5B9692vyrww

无聊的猪

2025.2.08

不错的一期，各位嘉宾平静分析👍 如果主持人在个别点能不突兀的义愤填膺就更好了

Ro98

2025.2.08

1:13:54 蒸馏即便不是侵犯知识产权，至少是一种技术上的取巧。取巧没问题，但过度解读和宣传就不必要了

求求不要再给推我谢娜播客:怎么理解过度宣传呢？感觉deepseek并没拿这个当噱头宣传呀

mayjailer:我感觉ds根本没宣传。。都哦是一些自来水给它买的热搜和话题

书虫弗兰克

2025.2.07

1:10:25 搜了一下AI蒸馏的含义，通常指知识蒸馏（Knowledge Distillation，KD），是一种用于模型压缩与知识迁移的AI技术。
核心原理：
1、训练教师模型：先训练一个性能较高但结构复杂、规模大的模型作为教师模型，如深度神经网络，它在特定任务上能达到较高的性能水平。
2、生成软标签：传统监督学习使用硬标签，而知识蒸馏中，教师模型对训练数据进行预测得到概率分布，即软标签。软标签包含了类别之间的相似性等更丰富的信息。
3、训练学生模型：训练一个较小的学生模型，使其输出尽可能接近教师模型的预测分布，让学生模型学习教师模型的“思考方式”和知识。
4、优化调整：通过调整学生模型的参数，如使用Kullback-Leibler（KL）散度等损失函数，确保学生模型在新任务上具有良好的泛化能力，在减少计算资源消耗的同时，尽可能保持模型的性能。

无聊的猪:也就是说，使用原始数据的训练并不属于蒸馏的范畴？

书虫弗兰克:这个好像属于数据挖据，也称AI的挖矿

共6条回复