EP61 一期节目粉碎所有关于DeepSeek的谣言:训练成本600万、冲击英伟达、五万张H100、模型蒸馏、黑客攻击

EP61 一期节目粉碎所有关于DeepSeek的谣言:训练成本600万、冲击英伟达、五万张H100、模型蒸馏、黑客攻击

120分钟 ·
播放数40351
·
评论数101

本期节目我们来聊聊近期最火热的话题——DeepSeek。这个春节,可以说是一个"DeepSeek春节"。相信大家都有看到,不管是朋友圈、小红书、微博,还是各大媒体平台,都在疯狂讨论DeepSeek,谣言与热度齐飞。

在国内狂欢的同时,我们也看到DeepSeek的爆火在全球范围内引发了诸多挑战。其中包括监管层面的问题,比如欧盟各国对DeepSeek展开的调查甚至禁用,也有来自美国AI圈甚至政府层面的质疑,有不承认DeepSeek的技术创新的,有怀疑DeepSeek芯片来源不合法的,也有说DeepSeek蒸馏ChatGPT是“偷窃”美国顶尖技术的(看得出来DeepSeek给美国那边造成多大的冲击了哈)。

总之整个讨论氛围是高度赞誉中夹杂着不少质疑,还有全网乱飞的假消息。所以,我们这期节目邀请了三位大咖,来跟我们一起讨论最近DeepSeek的爆火、质疑和谣言。我们从DeepSeek全球爆火过程拆解开始,聊到了DeepSeek R1的核心突破、训练成本600万美元的争议、对英伟达股价的冲击、五万块H100芯片的谣言、模型蒸馏和“偷窃”指控、美国对华科技竞争政策以及狂欢之后DeepSeek R1带来的长期影响。

嘉宾:

庄明浩:《屠龙之术》主播,我称之为国内第一AI行业观察者,去年底庄老师做的《132页PPT记录AI行业这一年》震翻了所有人。

张涛:头部出海AI应用Monica的产品合伙人,也是传说中的顶级AI产品经理(42章经:《一个顶级 AI 产品经理的自我修养 | 对谈光年之外产品负责人 Hidecloud》)。

张鹏:公众号东不压桥研究院的主理人,关注全球尤其是中美地缘政治,尤其是在科技领域的竞争政策,有非常深入且广泛的研究(《特朗普2.0时代的中美科技竞争》)。

声明:本期节目中嘉宾发言不代表其所在机构观点,欢迎有不同想法的朋友在评论区跟我们讨论、互动。也欢迎加入我们的听友群(微信 Lily_letitbe,备注:听友群)参与互动。

本期节目你能听到:

DeepSeek全球爆火过程全拆解

00:06:03 Deepseek爆火观察:出口转内销、墙内开花墙外香

00:08:35 DeepSeek的创新是对以美国M7为代表的巨额AI基建投资叙事的一种挑战

00:10:14 DeepSeek与黑神话悟空的双厨狂喜(冯骥的微博

00:10:51 英伟达老黄内部信、梁文峰知乎回应—AI创作的狂欢,无数人被骗,谣言与热度齐飞

00:12:51 美国AI沙皇五步绝杀—也是AI写的!(正版看这里《特朗普的“AI沙皇”David Sacks谈DeepSeek》

00:13:38 《中美人工智能能力脱钩法案》,会导致每个下载 DeepSeek的美国人被罚一亿美元?—还是假的(正经分析看这里《“美中人工智能脱钩”法案,能通过吗?》

00:14:14 顶级AI产品经理视角下的DeepSeek全球爆火过程

00:16:17 DeepSeek在美国:从核心AI圈讨论到彻底破圈,还得感谢Mark Andreessen(硅谷顶级风投机构a16z的联合创始人)

00:18:24 AI产品经理的心潮澎湃和“成了!”

DeepSeek R1到底强在哪里?

00:19:37 DeepSeek V3创新已经很强,但不过就是另一个GPT4o

00:20:32 DeepSeek R1第一次验证了ORM强化学习路径(你问OpenAI O1?—没公开就等于没有哈)

00:20:43 了解DeepSeek R1更多技术细节( 张小珺商业访谈录:《逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告》

00:21:41 DeepSeek破圈根本原因:全球第一个既有推理模型能力,又可以实时搜索知识,并不断结合、反思的产品,带来全新用户体验

00:27:17 美国主流媒体及学界对中国AI发展长期冷落,英语世界信息极度落后,假消息满天飞

00:28:12 英文世界第一大假消息:DeepSeek 秘密武器罗福莉

00:28:46 英文世界第二大假消息:DeepSeek只是幻方量化的副业项目

DeepSeek R1训练成本只要600万美元?

00:29:26 英文世界第三大假消息:DeepSeek R1训练成本只要600万美元,打垮英伟达算力叙事

00:30:22 回本溯源详解“DeepSeek R1训练成本600万美元”

00:32:42 “DeepSeek 成本600万美元”在美舆论逐渐离谱全过程

00:32:57 实际成本对比:600万美元干了几千万美元的活

00:35:21 美国主流AI叙事:科技巨头百亿美金级投入 vs 主要参与者数十亿美金级投入 vs 挑战者数亿美元级投入

00:37:11 在美国科技巨头数千亿美金的AI基础设施投入面前,DeepSeek的600万美金变成神话

00:38:38 现实的成本对比叠加中美各方民族情绪后,事实变得不重要了

00:42:14 DeepSeek爆火给国内做AI基础设置、云服务、套壳产品的厂商带来的机会

DeepSeek R1的出现对英伟达到底是利好还是不利?

00:44:04 DeepSeek R1的出现对英伟达到底是利好还是不利?谁也说服不了谁

00:46:44 美国西岸的都在买英伟达,而东岸的都在卖英伟达

00:47:40 AI产品经理视角下,未来三年AI推理算力需求可能扩大100倍

00:48:16 算力需求是上涨了,但英伟达都能吃掉吗?

DeepSeek有五万块H100芯片?

00:49:49 DeepSeek有五万块H100芯片?白宫都惊动了,但还是假消息

00:51:48 Deepseek R1的出现,说明美国出口管制自食恶果,还是出口管制不足,应继续加强?

00:53:59 DeepSeek到底有多少张卡?

00:56:27 但凡读过DeepSeek V2和V3两篇论文的人,都不可能相信DeepSeek有5万张H100

美国对DeepSeek模型蒸馏、“偷窃”指控

00:57:36 OpenAI/美国质疑Deepseek蒸馏其先进模型,“偷窃”美国先进技术,到底成不成立?

00:58:03 什么是模型蒸馏

01:00:14 模型蒸馏是行业内公开的“秘密”

01:00:52 蒸馏在整个模型训练过程中只是一个小的技术点

01:01:22 DeepSeek蒸馏ChatGPT的谣言是如何产生的?

01:02:34 为什么DeepSeek APP会回复说自己是ChatGPT?

01:05:20 OpenAI现有产品设计上,已经封锁了真正意义“模型蒸馏”的可能性

01:07:25 从法律角度看美国对DeepSeek偷窃美国模型技术的指控

01:10:01 模型蒸馏是否违法,边界模糊,尚无定论

01:11:22 美国政府对“模型蒸馏”反应激烈

01:12:43 技术上,限制“模型蒸馏”实操性不大

01:13:08 OpenAI自己面临非法爬取全网数据、广泛侵犯知识产权的问题,指责DeepSeek蒸馏违法,未免太过双标

01:15:30 美国对“模型蒸馏”如此敏感,是因为他们认为中国是在“搭便车”

01:16:55 AI合规问题本质上是新技术发展与既有规则体系之间的矛盾,大家都还在探索期

01:17:52 全球各国挑战DeepSeek数据合规,是否过于严苛且双标?

01:19:03 当今地缘政治环境下,任何一个科技头部应用的出海落地都不是一件简单的事情

美国对华科技竞争政策全解

01:20:08 美国对华科技竞争政策全解

01:21:04 拜登政府时期:芯片出口管制、中美数据脱钩、对华科技投资禁令

01:22:59 川普时期:中美贸易问题和科技竞争问题一盘棋

01:23:34 川普政府可能进一步限制美国AI人才向中国流动

01:24:16 美国国内产业扶持 + 国外限制中国AI发展:确保AGI首次发生在美国

01:25:10 DeepSeek R1的火爆,引发美国对华AI竞争恐慌,恐带来过度回应和反制措施

01:27:51 欧盟看中国科技企业出海:就事论事,变相收“监管税”

01:29:02 美国看中国科技企业出海:国家安全威胁,监管规则不断完善,有意识地推动双方脱钩

01:31:05 创业者视角:放弃幻想,兵来将挡,水来土掩

狂欢之后:DeepSeek爆火的长期影响

01:33:36 DeepSeek R1之后,再看国内大模型公司的护城河:原来移动互联网时代的DAU叙事结构不再适用

01:36:04 DeepSeek R1给未来AI应用的发展带来无限想象力

01:37:50 DeepSeek R1之后,再看国内AI六小龙:技术路线还跟不跟?是不是要开源?商业化怎么办?

01:40:46 DeepSeek免费开源,那他们如何盈利?

01:44:09 “异类”DeepSeek,可能是世界范围内最适合去实现AGI的

01:46:48 刚还在调侃朱老师,朱老师的“真香”就来了(《朱啸虎现实主义故事1周年连载:“DeepSeek快让我相信AGI了”》

01:47:53 对推理模型,从业者们也都还在探索期,对接下来半年保持期待

01:49:55 2025年,可能是AI Agent实际落地年

01:51:48 模型技术极速发展、迭代迅速,实体企业应该何时实际落地投入?

01:53:30 模型必定商品化,实体企业不必在训模型层面投入

01:54:09 行业迅速变化,如果今天还不深度参与,可能就没机会了

01:55:24 DeepSeek被海外黑客攻击导致频繁停止服务,国内各安全厂商团结一致抵御---完完全全假消息!!!

01:56:49 教你如何在电脑、手机上本地部署使用DeepSeek---伪概念 !!!实际效果跟满血版DeepSeek R1相差十万八千里

延展阅读:

《疯狂的幻方:一家隐形AI巨头的大模型之路》

《Ben Thompson聊DeepSeek,硅谷关于DeepSeek最值得看的一篇》

《SemiAnalysis对DeepSeek的分析报告中文译文》

《Lex Fridman 五小时播客实录:中美 AI 竞争与国运》

《为什么 Anthropic CEO 对 DeepSeek 和中国 AI 的恶意这么重?》

《欧美监管夹击,DeepSeek如何应对?》

《DeepSeek火了,美政府怎么看?》

《出口管制H20和限制模型蒸馏:DeepSeek的连锁反应?》

背景音乐

Happy Day — Sergio Prosvirini

Dreams — Benjamin Tissot

剪辑:Libing

展开Show Notes
Lily_Letitbe
Lily_Letitbe
2025.2.13
置顶
本期节目文字稿节选可以到“律人行”公众号查看,链接:https://mp.weixin.qq.com/s/kWWbDh4cUWY5B9692vyrww
不错的一期,各位嘉宾平静分析👍 如果主持人在个别点能不突兀的义愤填膺就更好了
Ro98
Ro98
2025.2.08
1:13:54 蒸馏即便不是侵犯知识产权,至少是一种技术上的取巧。取巧没问题,但过度解读和宣传就不必要了
求求不要再给推我谢娜播客:怎么理解过度宣传呢? 感觉deepseek并没拿这个当噱头宣传呀
mayjailer:我感觉ds根本没宣传。。都哦是一些自来水给它买的热搜和话题
1:10:25 搜了一下AI蒸馏的含义,通常指知识蒸馏(Knowledge Distillation,KD),是一种用于模型压缩与知识迁移的AI技术。
核心原理:
1、训练教师模型:先训练一个性能较高但结构复杂、规模大的模型作为教师模型,如深度神经网络,它在特定任务上能达到较高的性能水平。
2、生成软标签:传统监督学习使用硬标签,而知识蒸馏中,教师模型对训练数据进行预测得到概率分布,即软标签。软标签包含了类别之间的相似性等更丰富的信息。
3、训练学生模型:训练一个较小的学生模型,使其输出尽可能接近教师模型的预测分布,让学生模型学习教师模型的“思考方式”和知识。
4、优化调整:通过调整学生模型的参数,如使用Kullback-Leibler(KL)散度等损失函数,确保学生模型在新任务上具有良好的泛化能力,在减少计算资源消耗的同时,尽可能保持模型的性能。
无聊的猪:也就是说,使用原始数据的训练并不属于蒸馏的范畴?
书虫弗兰克:这个好像属于数据挖据,也称AI的挖矿
6条回复
Dear_Leila
Dear_Leila
2025.2.09
05:35 接近40岁,中年,两耳不闻窗外事……听到这儿感觉被冒犯,40岁是信息获取非常成熟,同时也有自己判断的时候,主播是怎么根据自己家庭特殊情况说出这么一句话的?
yisenn:这句话的重点其实在于过年回到了小城市,小城市的人并不关心AI圈,也没有几位科技从业者,但那几天他们也都在讨论deepseek,她这个情节也发生在我家里,是我退休了的57岁的妈妈问的,是想表达deepseek太出圈了、已经到了二线城市以下的非科技从业者,而不是在说40岁有什么问题。
Lily_Letitbe
:
“两耳不闻窗外事”不是对40岁的形容…而是对我姐姐的事实表述:我们十八线小城市、40岁、两耳不闻窗外事的我姐姐都关注到了deepseek,足以说明这件事情引发了多大的讨论和多广泛的关注
8条回复
1:51:20 1:48:26 乍看标题有点过于托大,听完才发现名副其实。嘉宾质量很高,赞
Lily_Letitbe
:
谢谢认可😊
挺好,已听完,最早以为DC是疯狂营销,毕竟所有营销号博主,跨界的全部都狂欢。现在看,还是要冷静一下,再观察观察……期待真国产AGI早日到来。
无聊的猪:营销号向来追流量而不管热点对象的死活,人血馒头也照抢不误
-ThreeWater-
-ThreeWater-
2025.2.07
标题nb!
大_懒_堂
大_懒_堂
2025.2.09
听得心潮澎湃,同时也云里雾里……没听懂!😂
RookieStar
RookieStar
2025.2.09
1:44:09 同意hidecloud这里说的,ds已经成功绑定国家战略,通过低成本和开源把生态位卡死,接下来大量的央国企事业单位有雄厚的资本来支撑ds的商业化目标
hidecloud:我没说这个……🤣
RookieStar:苹果的apple intelligence据说也可能和ds合作在华运营。把产品做极致了,商业化也未必愁
4条回复
joy12
joy12
2025.2.09
这件事出圈很大一部分原因是美国很多大佬采访时对deepseek的肯定,包括扎克伯格,微软ceo等人
__noble__
__noble__
2025.2.09
56:42 你读过之后就知道他的卡绝不止这些h800…
庄明浩
庄明浩
2025.2.07
真速度
Lily_Letitbe
:
感谢人形数据库庄老师的支持!下次再来😊
HD269431z
HD269431z
2025.2.10
节目很好,但是主持人不懂乱插嘴,太讨厌了。
HD269431z:作为外行,提问题而不是做结论才是关键,不然很容易给人一种普信感。
Minifridge:没有这样一个角色,你觉得这节目能顺利进行下去吗
HD795042t
HD795042t
2025.2.10
1:18:50 啥叫创业公司监管合规就不是主要任务😂,啥时候公司的合规义务跟公司的发展阶段还有关系了
LuckyLatte
LuckyLatte
2025.2.08
好棒 算是最近接触到的最客观最全的分析了
听的好兴奋,值得逐字研读!我作为门外汉基于自己了解信息的一些直观的感受被各位专家的表达验证了。
机遇和挑战并存,最为法律合规业务从业者,还是挺激动的,感觉好多可以研究的!
SonicZhan
SonicZhan
2025.2.08
女声怎么一卡一卡的
Lily_Letitbe
:
这期是远程会议录的,网有点卡😂
MeteoBoy4:除了主持人的收音其他人声音都很清晰
杨戬大大
杨戬大大
2025.2.11
主持人这么激动干嘛?反而嘉宾狠理性
大蒜瓣儿
大蒜瓣儿
2025.2.10
1:33:01 不是很理解主播充满民族情绪的这段言论。难道律师行业在这方面被摧残的还不够吗?希望能听到更纯粹的关于领域本身的信息。
小宇宙上关于deepseek,现阶段最好的节目👍“对齐税”是第一次有人提到