59. 和杨植麟聊大模型创业这一年:人类理想的增量、有概率的非共识和Sora张小珺Jùn|商业访谈录

59. 和杨植麟聊大模型创业这一年:人类理想的增量、有概率的非共识和Sora

80分钟 ·
播放数40150
·
评论数100

今天的嘉宾是大模型公司月之暗面的创始人兼CEO杨植麟。

杨植麟是去年成立的这批国产大模型公司创始人中,最年轻的一位,也是学术、工作履历和通用AI有最直接相关的一位。他毕业于清华和CMU,总计论文引用次数超过22000次。在人人喊PMF(产品/市场契合)、人人喊商业化的中国AI生态里,这位AI研究员出身的创始人倒不那么着急。

国产大模型中,月之暗面是最坚定做to C、且只做to C的一家公司(于去年10月推出了智能助手Kimi),也是目前估值最高的一家中国大模型独角兽(投后估值超过25亿美元)。就在他们第三笔融资进行的过程中,我和杨植麟聊了聊他过去一年创业故事。

这期节目由两次访谈组成。我们主要的访谈是在2024年1月完成,不过过年期间,OpenAI重磅发布Sora,所以我们又在2月补充了一次访谈。由于杨植麟有大模型创业者和AI科学家的两重身份,所以节目中包含了许多他对于AGI技术演进的关键技术判断。

我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)
  • 02:51 站在巨大技术变革的开端:前面是延绵而未知的雪山
  • 03:35 11年本科、17年收敛到大语言模型、和图灵得主合作论文:杨植麟的学术之路
  • 06:36 为什么AGI需要新组织?为什么科研机构、巨头的AI lab无法产生伟大系统?
  • 10:24 全球化+AGI+很大用户量的产品,最终可能是AGI的必要条件
  • 11:07 我们不想做“中国的OpenAI”,但应该学习OpenAI的技术理想主义
  • 13:15 我在Google学习到的最重要一课:从无限的雕花中把自己释放出来
  • 16:25 作为博士怎么与图灵奖得主合作?和学术大佬合作与和资本大佬合作,哪个更难?
  • 19:37 创业这一年时间轴:ChatGPT激活资本、人才变量,我在硅谷做了一笔精确计算
  • 22:28 Timing很重要,第一笔融资的窗口很短,只有一个月
  • 27:54 怎么搭建AGI团队?现在有80人
  • 30:21 卡的问题有很多back and forth,接下来一两年不会成为很大瓶颈
  • 32:13 为什么月之暗面做to C且只做to C?(long context与Kimi智能助手背后的技术产品思考)
  • 37:39 你认可说“国产大模型公司去年追赶GPT-3.5,今年追赶GPT-4,没有本质差异”这种说法吗?——这句话是对的,但也是片面的
  • 39:17 追赶GPT-4是国产大模型的必经之路,但也要做非共识的新维度
  • 40:53 不认同2023年下半年大模型市场转冷的判断,我们下半年确实也完成了融资
  • 42:57 登月第一步是长文本,第二步呢?接下来会有两个最重大的技术milestone
  • 44:21 只有一个颠覆性的东西,才配得上AGI这三个字,否则我们今天说的都没意义
  • 45:34 我对PMF、落地场景和应用的看法(“应用”不是个准确的词,听起来更像目的——应该既是手段、也是目的)
  • 46:54 User的scaling和Model的scaling这两件事应该同时做,降维打击发生过太多次
  • 48:54 为什么开源追不上闭源?现在开源的方式和以前不一样了,它本身还是中心化
  • 49:48 AI不是这一两年找到什么PMF,而是未来十年二十年能做什么改变世界
  • 51:48 怎么对抗国内的焦虑情绪?大模型创业中的长短期平衡——如果没有长期,你会错过整个时代
  • 57:41 回顾2023年的曲折、变量和预料之外
  • 60:30 怎么看几个市场上的几个观点(包括Yann LeCun、Geoffrey Hinton、陆奇)
  • 62:25 现在的大模型公司配比:一半实验室,一半商业公司
  • 64:20 怎么看大模型创业公司和巨头的关系
68:05 以上是对杨植麟的第一次访谈,接下来是过完年后的第二次。这次我们重点聊了OpenAI重磅发布Sora的技术观点和对2024年的全球大模型产业预测
  • 68:24 Sora有多少在你的意料之中,多少在你的意料之外?
  • 69:17 Sora解决掉的技术问题:能在一个比较长的时间窗口保持生成的一致性
  • 69:40 Sora对于全球产业格局意义是什么?2024年大模型会有哪些新叙事?
  • 71:57 视频生成之前的关键技术瓶颈,更unified architecture(统一的架构)仍然没有被解决
  • 73:04 解读OpenAI关于Sora报告:《Video generation models as world simulators》
  • 74:30 怎么看Yann LeCun对生成式AI的新观点(“通过生成像素对世界进行建模是一种浪费,并且注定会失败”)
  • 77:45 Sora是视频生成的GPT-3.5时刻
  • 78:37 为什么不同模态放在同一个模型里那么难?Sora + GPT会出现什么?
  • 80:40 两个世界差得越来越远了吗?
  • 83:41 2024年的全球大模型产业预测

【更多信息】

本集文字版本:腾讯新闻原文 & 作者的收藏夹

联络我们:微博@张小珺-Benita,小红书@张小珺jùn

更多信息欢迎关注公众号:张小珺

展开Show Notes
JASting
JASting
2024.3.02
13:29 把自己从雕花中释放出来,如果你能用scale解决的问题就不要用新模型解决,新模型只应该用来提升scale的能力。
MicWu
MicWu
2024.3.02
听完了整个播客,同时还对比了上一个硅谷AI投资人的论述,我对两者之间的共识表示认同。不过也想提出来,Kimi团队放眼整个AI创业圈可能依然被框在上期投资人对国内公司的描述,技术辨识度较低,整体依然在追赶GPT4的步伐。虽然这次嘉宾反复强调自己团队在在文本压缩上的技术优势,但放眼整个技术体系上并没有太多辨识度。嘉宾当然非常非常优秀,cmu读博期间能和lecun发论文且引用超两万本身说明了其学术领域的能力,但放眼ai圈想要成为桌子上的玩家依然前路漫漫。而关于未来国内外技术差距上的讨论,我自己是更认可投资人的观点,也就是openai为主的几个头部玩家会最终远远甩开别的模型玩家,而最终国内外技术上的差距会越来越大。还有一点是我自己想补充的,中文互联网的内容质量没有办法和英文相比,这会导致中文语言模型能力上限的不足,可能最后英译中的效果都要好于原生中文模型。在大语言模型的同时我觉得国内还需要更优质的内容生产平台
小和平鸽:中英文互联网的内容差距现在真的是越来越大了。中文世界先不说移动互联网以后各家严格隔离的silo 状态了,你就是随便去搜索一个稍微专业点儿的技术领域,就会发现国内无非就是各种百科,贴吧,自媒体,各种极端言论在哪里自嗨。而一旦换成英文搜索,就会有大量的行业内企业机构的专业网站,专业媒体,专业社区,甚至是学术机构的研究论文,总之专业内容是非常丰富的。
DeepFM_小Y:我倒是觉得超长 context window 而且从文本压缩角度做 是很有辨识度的技术路径 嘉宾在 concept 上的阐述很详细了 practical 上 我自己的 toB 实践里长 context对比 retrieval+短 context+各种 tricks 完全不是一个量级的效果了 另外还有对自发 context收集和循环的意识也很有 insight 至于语料层面的差距 存在但可优化 而且对模型的影响没有想象的大 一个是对模型来说语料的优质和通常认知的质量好还是有差别 重点是表达的丰富度和量 另外其实也没人会做单一语言的模型 长尾语言的效果基于迁移也很好
15条回复
1:19:28 网上对国内AI都是冷嘲热讽居多,但全球有多个做大模型的公司而不是一个巨头/国家垄断是好事,支持祝福依然愿意推动技术发展的公司
Camellia_122:+1
kimi很好用
JASting
JASting
2024.3.02
58:48 AI唯一work的东西就是 next token prediction和scaling law。所以只要token space足够大,token足够完整,就可以解决通用性的问题,就可以建造出表达世界上所有的东西,通用的世界模型。幻觉问题也是靠scaling law解决。
Lemaire_
Lemaire_
2024.3.08
“如果所有人都觉得你正常,你的理想是大家都能想到的,它对人类的理想总量没有增量。”这句话太好了
JASting
JASting
2024.3.02
14:42 永远要去找第一性原理,而不要停在浅层次雕花。第一性原理就是只要能找到一个结构可以满足两个条件:足够通用,可规模化。前者是说所有问题可以放在这个框架里建模,后者是说只要能投入更多算力就可以变得更好。
JASting
JASting
2024.3.02
33:46 为什么月之暗面先做long context的无损压缩:因为长文本是新的计算机内存,长文本压缩能力通过让更多的内容可以被数字化(类比于计算机里的0和1),从而能让新的计算范式变得更基础。提升context sense,才有可能搭建通用世界模型。AI最重要的价值是个性化互动,但个性化的方式不是专门微调模型(不是推荐算法的升级),而是支持足够长的context(和模型的所有历史互动来定义个性化过程)。
好运街
好运街
2024.3.01
刚在公众号看完全文,现在来听完整采访
FusionW:一样的!哈哈哈哈
LearnWise
LearnWise
2024.3.01
能这么坚定相信 scaling law 的国内公司可能真的只有月之暗面了,太厉害了。
噗噗狍:国内其他AI公司呢🤔
_sheng
_sheng
2024.3.01
00:08 哈哈哈开头bgm月之暗面很应景
bzhas
bzhas
2024.3.03
17:38 回答怎么跟大佬们合作的这个问题有那么难吗 又是运气又是正常
HD528180h:同感。。。感觉主持人已经各种追问了然而就不告诉你。。。
Jadeen:这问题其实本就没有通用答案,说白了就是实力够硬对大佬有价值,且恰好有机会。非要刨根问底就挺无聊的
小和平鸽
小和平鸽
2024.3.03
1:19:49 其实挺想有一个AI声音处理的系统的。比如说这期的嘉宾这种懒懒的,有点儿“台湾感”的这种讲话的方式,说实在的,这种“陪伴感”是拉的满满的。但是对于技术类的内容,要想听的清每一个细节就比较头疼了。如果能够把它处理成梵一如的声音效果,那就可以听的很清楚了
嘉宾典型理科男,非常理性和实务,问题回答非常直给,直接要害,不想回答的就不回答,爽直,感受到了行业最前沿的理解,信息量非常大,学习了2遍!最后主持人问孤不孤独,才有点情绪起伏。
1、语言是局限的,可能只是是世界的一个投影,但理论上你把这个token space做的更大,你就有一个通用的世界模型。这个世界上每一样东西他怎么产生,怎么发展,你都能给他分配一个概率,基本所有问题都可以被归结成怎么对这个概率进行估计。
2、lab逐渐演变成你是要做一个巨大的系统,你可能确实需要新的算法,但是也需要很好很扎实的这个工程,甚至需要很多产品的商业化,一个综合的系统,与实务结合,反例google能产生transformer,但可能产生不了GPT
3、scaling low为什么它能成为第一性原理,就是你只要能找到一个结构,满足两个条件,一个是它足够通用,第二个是它可规模化。通用的意思就是你能把所有问题放到这个框架里面去建模。可规模化的意思就是说只要你往里面投入足够多的算力,它就能变好。
4、不要雕花,要看长远的东西。
5、AI最终最核心的价值实际是一个个性化的互动,context它就比如说你跟这个机器的所有的历史,它可能都是这个context。这个context本质上就是它定义了一种个性化的过程
6、接下来会有两个大的milestone,一个是真正的统一的世界模型,他们统一各种不同的模态,就是一个真正的scalable和general的architecture。第二个就是能在没有人类数据输入的情况下,能够AI持续进化。然后我觉得接下来可能最重要的两个milestone.。
7、AI不是说我在接下来一两年找到什么PMF,是接下来10年到20年能够如何改变这个世界。现在固然是重要的,但是如果是着急的去找一个PMF,你很有可能最后发现又被降维打击了,今天所有的一些东西都被改写。模型能力会解锁更多应用场景
8、有概率的非共识,用你的先去判断这个方向,就可能有一些方向它其实是有可行性。它应该不是说已经比如说open已经做出来的东西。
9、通用模型来处理各种任务优于专门的小模型来处理特定的任务。
10、产研结合,最终目标是用户,与用户共创!
数据英雄
数据英雄
2024.3.05
Fun fact:24年初,公司内部在做performance review的时候,我做了一个对话bot,帮你把简单的词句改写成“专业化”的语句,引起了很多讨论和自传播。原来硅谷的tech guys在23年初就这么做了!
good_luck
good_luck
2024.3.01
为什么这个采访留了这么久
张小珺
:
最近太忙了😅
瓦灯
瓦灯
2024.3.01
杨老板似乎回避了不少问题
SuperPants24130:商业机密可以理解
captainmiaoo
captainmiaoo
2024.3.03
1:15:40 感谢。短期来看,大家还是太悲观了。
嘉宾和访谈超棒,就是声音好低不清晰,公共交通工具不友好🥹
英杰是一只奶牛猫:或许可以试试小宇宙的“人声增强”功能
对ai的认知水平不同,一线创作者对ai的认知是发现了新大陆,但是做商业化的觉得要以商业化为目的