100: 硅谷怎么看 DeepSeek ?与 Fusion Fund 张璐聊开源、Agent和“除了AI”晚点聊 LateTalk

100: 硅谷怎么看 DeepSeek ?与 Fusion Fund 张璐聊开源、Agent和“除了AI”

76分钟 ·
播放数71908
·
评论数140

「技术的力量,开源的力量,初创生态的力量」

2025 年 1 月,农历春节也没有让模型竞赛丝毫减速。DeepSeek 发布开源推理模型 R1,以相对低的成本,在一些 Benchmark 上比肩 ,甚至超越了 o1 的表现,在全球掀起了广泛讨论。

这期节目,我们邀请了 2015 年,在硅谷创立了 FusionFund 的投资人张璐,来和我们一起聊一聊,当前美国科技圈和硅谷语境中,对 DeepSeek 等模型的讨论。

我们也延展聊了 DeepSeek-R1 和 o1 等推理模型打开的 Agent(智能体)应用空间;以及在美国的科技投资视野中,除了 AI ,大家还在关注什么。

FusionFund 曾投资 SpaceX、AI 音频公司 Otter.ai 还有 AI 与医疗结合的公司 Subtle Medical 等。在 AI 领域,Fusion Fund 重点投资美国本土的 to B AI 公司,关注 AI 与医疗、太空科技等领域的结合。

张璐认为,DeepSeek 能有如此出圈的影响力,重要原因之一是开源生态的胜利,而开源的繁荣更有利于初创企业。

张璐也谈了她对“DeepSeek”利空英伟达和 GPU 算力需求,以及 Meta 等美国科技大公司感到的压力。

她的观察是,长线看,DeepSeek 这类大幅降低 AI 模型训练、部署和使用成本的开源成果,会促进更多公司把 AI 大模型带到各行各业,这会提升 AI 用量和算力需求,对算力并不是一个利空。

对 Meta 这样大力投入开源的大型科技公司,张璐认为,它们的一些贡献和整个开源社区的进展,本身是 R1 这类成果出现的条件之一,同时 Meta 作为美国 AI 开源生态的主要玩家之一,也会长期受益于开源的繁荣。

我们聊这期节目时,是 2025 年 1 月 27 日上午,当天晚上,英伟达股价大跌超 17%,市值蒸发超 5000 亿美元。

这次波动幅度超出一些人的预期,但也许并不影响长期的趋势判断。1 月 28 日,英伟达又反弹 8%,股价从前一天最低约 116 美元回升至 129 美元。你“抄底”了吗?

登场人物:
嘉宾:张璐,Fusion Fund 创始合伙人
主播:程曼祺,《晚点 LatePost》科技报道负责人。

时间线跳转:
- DeepSeek“冲击”,开源生态的胜利
02:51 张璐达沃斯峰会期间,各路商业领袖讨论 DeepSeek
04:13 去年年中,Anthropic 和 OpenAI 的朋友就提及过 DeepSeek
04:59 R1 的“惊喜”来自:1.开源 2.跳过监督学习的强化学习 3.成本优势
08:03 这对 Scaling Law 是好消息:可免除大量标注数据,结合更多合成数据,让模型自我“反思”
12:27 一直相信开源的力量,开源更利好初创生态
15:30 DeepSeek 改变大家对中国模型的印象:工程优化外,底层架构也有创新。
16:46 AMD 宣布与 DeepSeek 合作,但这也不是利空英伟达,因为DeepSeek 等成果会降低更多行业使用大模型的成本门槛
19:55 Meta 短期有公关舆论压力,长期受益开源繁荣
23:06 DeepSeek V3 557 万美元训练费用,只算了 GPU hours
25:29 OpenAI 的秘密武器?是否低估了开源与闭源的差距?
28:09 X.ai 的特别优势:有 3D 产业数据(Tesla、SpaceX 的生产、产线数据等)
30:32 DeepSeek 的“诗意输出” :模型有不同“性格”,不同语言也可能带来不同“思维方式”
33:12 2025 年 AI 升级方向:垂直小模型、AI 进入边缘设备、架构创新

- 推理模型带来的 Agent 机会
40:08 试用 OpenAI Operator,目前还很慢,会编造信息,但前景美好;Salesforce、微软等大公司在布局行业 Agent。
43:50 Sam Altman 称很快会让 ChatGPT Plus 会员(20 美元/月订阅)用上 Operator,这话得“打折”听。
45:25 美国 B 端客户对准确性和专业度要求高,对当前 Operator 的形态接受度低,更希望获得专业、精准产品。
46:50 Operator 与传统 RPA(流程自动化)的区别:交互革新。
49:36 医疗、金融、保险、太空科技领域都有 Agent 应用机会。
53:33 Agent 隐私问题——一个实例:人们更喜欢向机器/AI倾诉疾病困扰。
56:15 AI Native 的一代:一出生就和 AI 玩具聊天的孩子们
56:33 美国基于开源基座模型+第三方 infra 服务+应用,生态活跃;而国内投资人有时担忧只做一个环节的公司太轻,易被巨头挤压。
01:03:04 硅谷创投圈的热闹,每周有新东西,幸福感高,竞争压力也大。

- 除了 AI
01:06:23 科技和生命科学结合(Bio Tech)& 太空科技(Space Tech)
01:10:15 美国创新核心在硅谷,波士顿、纽约、奥斯汀、洛杉矶也在崛起,如洛杉矶形成了 Space Tech 聚集地。
01:13:40 2025 年充满变数,期待更好保护创新生态,防止技术和资源被大企业垄断。

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

相关链接:
OpenAI 来了!与硅基袁进辉聊 o1 新范式和开发者生态

DeepSeek 爆火引发系列连锁反应,Meta 建立 4 个小组研究 DeepSeek

剪辑制作:阿鲸Hval

本期主播:小红书 @曼祺_火柴Q,即刻 @曼祺_火柴Q

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

封面:AI 生成的数字巨鲸。

展开Show Notes
置顶
蜕蛇变龙——当技术与产品越过“金线”,到达极致,量变引起质变,质变引起狂潮。
蛇年开头,我们就见证了一个“奇迹”!

(新年快乐!🎆
《晚点聊》第 100 期,发在蛇年春节!非常感谢 Fusion Fund 创始合伙人张璐,节前做客😄
曼祺_MatchQ
:
我们聊这期时是北京时间 1 月 27 日上午,还没发生当晚的英伟达大跌。张璐的观点是,训练和使用起来更便宜的模型其实长期利好更多行业用 AI,利好算力需求。 这就像这几天我反复看到的“杰文斯悖论”——当蒸汽机动能转化效率提高,单台机器用煤少了,但用煤总量增加了,因为蒸汽机更普及了。 到 1 月 28 日晚,英伟达股价又反弹,从最低 116 美元来到最高 129 美元。 你“抄底”了吗?🙃
TG米开酱奇罗:能理解,就不会真的是利空 华尔街逮住机会就shoot
刚才在弄发布,这会儿看到今天(1月29日)下午的新信息:“美国正对 DeepSeek 开展国家安全调查”😑
Ray_y8Bu:不知道会不会禁止幻方买美股🥹
曼祺_MatchQ
:
补充:财联社发的信息称美国官员回应启动调查,我暂时没看到出处。 彭博社称:微软和OpenAI正在调查DeepSeek关联实体是否违规使用OpenAI模型输出的数据。
9条回复
HD62195u
HD62195u
2025.1.29
08:49 不需要数据标注 也可以做到。难怪做数据标注的Scale AI的 Alexandr Wang会破大防。皈依者狂热+利益受损 = 小丑本丑。
姥姥王
姥姥王
2025.1.29
曼祺老师太拼了,过年营业加更,必须支持了!
生而为猫奴:DS逼的🤣
曼祺_MatchQ
:
😄昨天夜里阿里还发了新模型 Qwen2.5-Max。“华尔街不过节”。Qwen 系列也是中国开源的一个重要力量。
3条回复
这期节目太好了!最近一直在关注 deepseek事件对美国 AI 股的影响,看了不少观点,众说纷纭。相反,这次访谈提供了既客观又冷静的分析。特别是关于deepseek长期对英伟达和整个AI生态的积极影响,与我的许多想法不谋而合。

很多人只看到短期它好像冲击了英伟达,却忽略了长期它对 AI 应用范围的拓展,进而带动 GPU 需求,对整个 AI 生态的利好。这次访谈把这点讲得很透彻。

还有 Meta,大家都在讨论它在开源模型上和 deepseek 的对比,却少有人从更长远的角度,分析 Meta 开源生态对出行企业的服务以及未来潜力。这次访谈给了我新的思考方向,真的让我受益匪浅。以后投资决策,感觉这次访谈里的认知能当作重要参考,期待能有更多这种有深度的内容!
雾凇_TwGi:卖硬件的和做软件的本来就是产业上下游的关系,说deepseek冲击英伟达本来就挺怪的
维德程心:回头看,发帖的时候英伟达一股是118,后面不到20天就重回140了。
YoungTtt
YoungTtt
2025.1.30
投资人自信满满说不会做空英伟达,结果第二天直接屠杀了快20个点,所以说,一级市场投资人不懂二级市场
cc_9YWK:人家说的是长期,大量圈外的人听风就是雨,短期波动很正常
HD764915b:Deepseek不需要那么大算力,不就利空显卡了吗
8条回复
LeonUp
LeonUp
2025.1.29
财联社1月29日电,美国多名官员回应DeepSeek对美国的影响,表示DeepSeek是“偷窃”,正对其影响开展国家安全调查。就在前一天,美国总统特朗普还称DeepSeek是很积极的技术成果。感谢来自太平洋对岸的认可(*´・v・)
狲狲
狲狲
2025.1.30
Lu昨天接受cnbc采访聊到的和这期基本相似,可以当成总结:Had a great discussion with CNBC last night about #Deepseek.
Here are some key points:
1. DeepSeek represents a victory for open-source over proprietary models.
2. DeepSeek is not just about reducing the cost of AI models—it also represents an improvement in scaling laws. It narrows the gap between open-source and proprietary models while enhancing efficiency.
3. OpenAI's brute-force scaling strategy may seem crude for now, but it could lead to new qualitative breakthroughs. We will see a greater number of smaller models, and their (edge) deployments will get easier. The need for big models does not go away.
4. Large models are still essential in developing smaller models like R1. The large models produce training data for the reasoning models and then serve as a teacher for smaller models through distillation.
5. We mentioned in our AI infra industry report last year that there are models with new architecture which will be able to use CPU for training and that are also potentially more efficient than GPU.
6. Demand for computational power will continue to grow. It should lead to a greater number of AI deployments, enabling a larger number of use cases than before. If models improve, the theory goes, then demand for inference will increase.
7. Demand for data will not decrease. Data remains the essential "fuel" -especially high quality data.
狲狲:张张璐在讨论中提到的几点,主要是围绕AI模型的发展趋势、技术挑战以及市场需求的逻辑展开的。我们可以逐条分析她的观点背后的逻辑: --- ### **1. DeepSeek 代表了开源模型相对于专有模型的胜利。** - **逻辑**:开源模型(如DeepSeek)通过社区协作和透明性,能够快速迭代和创新,逐渐缩小与专有模型(如OpenAI的GPT系列)的差距。开源模型的成功意味着技术壁垒降低,更多企业和开发者可以参与AI技术的开发和应用。 - **为什么这么说**:近年来,开源AI模型(如Meta的LLaMA、Stability AI的Stable Diffusion)在性能和可用性上取得了显著进展,甚至在某些领域超越了专有模型。张璐可能认为,开源模式将成为未来AI发展的主流方向。 --- ### **2. DeepSeek 不仅仅是降低了AI模型的成本——它还代表了扩展定律的改进。** - **逻辑**:AI模型的成本降低不仅仅是硬件或算力的优化,还涉及到算法效率的提升(即“扩展定律”的改进)。DeepSeek通过更高效的算法设计,能够在相同资源下实现更好的性能。 - **为什么这么说**:传统AI模型的扩展依赖于增加算力和数据规模(如OpenAI的暴力扩展策略),但这种方式成本高且不可持续。DeepSeek通过改进算法,实现了更高的效率,这可能是未来AI发展的关键。 --- ### **3. OpenAI的暴力扩展策略可能带来新的质的突破,但小型模型的部署会更容易。** - **逻辑**:OpenAI通过大规模算力和数据投入(暴力扩展)推动模型性能的提升,虽然成本高,但可能带来质的飞跃(如GPT-4的突破)。与此同时,小型模型(如边缘设备上的AI)将更容易部署,满足更多实际应用场景。 - **为什么这么说**:大模型和小模型各有优势。大模型适合复杂任务,而小模型更适合资源受限的场景(如手机、物联网设备)。张璐认为,未来AI生态将更加多样化,大模型和小模型并存。 --- ### **4. 大模型在开发小模型时仍然是必不可少的。** - **逻辑**:大模型可以通过生成高质量的训练数据(如合成数据)和知识蒸馏(将大模型的知识迁移到小模型)来帮助训练小模型。大模型是小模型的基础。 - **为什么这么说**:小模型通常缺乏足够的数据和计算资源来独立训练,而大模型可以通过蒸馏等技术将知识“压缩”到小模型中,从而提高小模型的性能。 --- ### **5. 新架构的模型可能比GPU更高效,甚至可以用CPU训练。** - **逻辑**:传统的AI训练依赖于GPU,但新架构的模型(如稀疏模型、混合精度模型)可能更高效,甚至可以在CPU上运行。这将降低AI训练的门槛。 - **为什么这么说**:GPU虽然强大,但成本高且能耗大。如果新架构的模型能够在CPU上高效运行,将极大降低AI开发的成本和复杂性。 --- ### **6. 对计算能力的需求将继续增长,推动更多AI部署。** - **逻辑**:随着AI模型的改进和应用场景的扩展,对计算能力的需求将持续增长。这将推动更多的AI部署,并催生新的用例。 - **为什么这么说**:AI模型的性能提升需要更多的算力支持,而算力的增长又将推动AI在更多领域的应用(如医疗、金融、自动驾驶)。这是一个正向循环。 --- ### **7. 对数据的需求不会减少,高质量数据仍然是关键。** - **逻辑**:数据是AI模型的“燃料”,尤其是高质量数据。随着模型规模的增加,对数据的需求也会增加。 - **为什么这么说**:AI模型的性能高度依赖于数据的质量和数量。即使模型算法改进,如果没有足够的高质量数据,模型的性能也会受到限制。 --- ### **总结** 张璐的逻辑核心是:**AI技术的发展是多元化的,开源模型、大模型、小模型、新架构模型将共同推动AI生态的进步。** 她强调了效率、成本、数据和质量的重要性,并认为未来的AI市场将更加开放和多样化。她的观点反映了当前AI行业的趋势,即从单一的大模型竞争转向更广泛的技术创新和应用场景拓展。
曼祺_MatchQ
:
这是AI总结的还是人写的?(有时真分不清😅
4条回复
kamu
kamu
2025.1.29
DeepSeek 带来的影响还有两点:1、中国基础大模型也走到了领先行列,不是跟随。记得在年前一次讲座中某位知名大教授很傲娇地说自己从来不用国内大模型,呵呵,有本事别用 deepseek;2、只依靠土生土长的国内顶级人才也可以做出领先的大模型……
南山北er:不过有一说一,在 deepseek 之前,国产的大模型跟美国的差距过大,倒不用嘲讽那个教授。
迷失的贵族:who
8条回复
每个中国人一生中必然会经历的三件事:出生,死亡,危害美国国家安全
毅Yi:你还不如说被删帖和禁言
曼祺_MatchQ
:
14亿的安全冲击😅
20:58 说人家做菜成本低是没把建厨房的钱算进去,这么讲有点不公平了吧😅难道llama的高训练成本是把研发团队加小扎的工资都算进去了吗?llama3 405B的模型训练用了30M的gpu hours,llama2 7b模型也用了1.8M,而V3 671B只用了2.8M,怎么不直接比这个?
wen2
wen2
2025.1.29
很好的投资人对谈,也期待找在DeepSeek和Llama以及OpenAI的从业者对谈,获得更多的第一手insights
LearnWise
LearnWise
2025.1.29
转 JimFan
Machines will train machines. Never bet against scaling. Never.
“机器会训练机器。永远不要低估算力的力量。那些认为RL需要更少算力的人,其实并不了解RL。”
gpCigqFeC52
gpCigqFeC52
2025.1.31
最新动态,老美破防开始攻击deepseek服务器,然后开始下架deepseek的app还要调查deepseek,逗死,哈哈
今天早上看了 Anthropic 创始人 Dario Amodei 的新博客文章,也在讨论 DeepSeek:On DeepSeek and Export Controls
https://darioamodei.com/on-deepseek-and-export-controls

文章落点最终指向加强芯片出口限制,打压中国,他滑过了一个关键问题:就是为什么单极(unipolar)的 AI 未来(美国强)会比双极(bipolar,中美双强)的好(他只是说双极的不安因素更多???)

不过这篇文章前面的部分提供了另一种理解 DeepSeek 成就和影响力的视角,Dario 也同时总结了“大语言模型的经济学”(the economics of LLM),有 3 个要素:

1.Scaling Laws:花更多钱(可以折算成数据或算力),模型越聪明。

2.Shifting the Curve(改变斜率)——各公司都在找方式提升 Scaling Laws 曲线的斜率,它可能来自架构创新(如 DeepSeek V2 里的 MLA),也可以是更高效地使用硬件,也可以是换新的硬件(芯片)
而且一旦斜率改变,从提升斜率中获得的收益几乎都会被继续投入训练更聪明的模型,所以算力需求和投入不会减少。直到人们真的训练出了在绝大多数任务上,能力都超过绝大多数人的智能。

结合 Anthropic 自己训练 Claude 的信息,和 DeepSeek 的模型表现与成本信息,Dario 认为 DeepSeek 的表现最好也只是 “on the trend”(在效率提升的正常趋势上),并未超出趋势。

3.Shifting the Paradigm(范式迁移)——每隔一段时间,scaling 的对象会变化,最近一次是从预训练到用 RL 做“second stage 训练”生成思维链的范式转移。他认为这个转移还在早期,所以会很快带来很多技术收获,会刺激各公司继续使用大量算力去做实验和训练新的模型。
LLLLLLLeah
LLLLLLLeah
2025.1.29
02:26 天大校友,神话般的学姐555🥺
摄躁融偏
摄躁融偏
2025.1.29
先码住
康尼
康尼
2025.1.29
54:33 一直不明白美国人为啥这么热衷于用AI买机票
Zo_gyyp:不是用Ai买机票,是用Ai Agent帮你规划一个完整的假期,包括机票,酒店,景点,餐厅,包括且不限于……
洛圣都出租车司机:可能他们没有12306
Shadowjoan
Shadowjoan
2025.2.02
这期嘉宾和主持人都很棒,质量很高
gpCigqFeC52
gpCigqFeC52
2025.1.31
还有claude的ceo发文要加强对中国的禁售,只有美国才可以有ai,中国不能有ai,哈哈