Vol.26 对谈生数科技CTO鲍凡:视频模型迎来了「首次涌现」,视觉更有可能通往 AGIAI局内人 | AGI Insider

Vol.26 对谈生数科技CTO鲍凡:视频模型迎来了「首次涌现」,视觉更有可能通往 AGI

92分钟 ·
播放数2591
·
评论数1

Sora 基于 DiT(Diffusion Transformer)架构,把长视频生成的效果提高到了前所未有的水平,也掀起了全球范围内的视频生成热潮。

11 月份,作为国内代表的视频模型公司,生数科技发布了旗下产品 Vidu 的 1.5 版本,全新上线「多图参考」功能,官方介绍该版本实现了视频生成模型的新突破:突破「一致性」难题、理解多样化的输入。

尤其是,多主体一致性的能力,可以说是解决了视频生成模型的「杀手级」难题。

对比文本生成模型的话,这可以说是视频模型的「首次智能涌现」。

事实上,Vidu 背后的团队,比 OpenAI 更早实践了 Diffusion Transformer 架构。2022 年 9 月,还在清华大学朱军教授实验室的鲍凡发表了 U-ViT 架构论文,12 月伯克利团队发布了路线同源的 DiT 架构,这一年的 CVPR,大会接收了清华大学的 U-ViT,反而拒收了伯克利 的 DiT。

我们找到生数科技的 CTO 鲍凡,也是 U-ViT 论文的一作,聊了聊 Vidu 最新版本取得的成果,以及作为全球范围内最早实践 Diffusion Transformer 的专家,他对于视频生成领域的观察和理解。

本期节目,极客公园创始人 & 总裁张鹏,和生数科技联合创始人 & CTO鲍凡,一起聊聊视频生成模型的技术路线与商业化现状。

时间轴:

00:03:33 Vidu 1.5版本中让人惊喜的新功能:上下文能力

00:06:06 从单主体到多主体一致性,技术上是怎么实现的?

00:12:10 为什么给视频模型设计上下文能力?上下文增加后,推理效率有影响吗?

00:18:14 多主体一致性是视频模型的「能力涌现」吗?

00:24:55 多主体一致性会如何影响视频创作行业?

00:28:25 Vidu的下一步:继续scale up

00:34:37 视觉是实现AGI的另外一条路吗?

00:40:57 生数科技的战略,不止图像与3D

00:47:46 Scaling Law真的遇到墙了吗?

00:56:55 Vidu如何和大厂竞争?

01:07:07 生数科技会如何找PMF?

01:11:40 模型能力泛化后,人类与AI的交互会怎么变?

01:17:00 2025年视频生成模型会怎么发展?

01:18:50 科研 vs 创业:5% 的发散,95% 的收敛

相关阅读:

张鹏对话生数科技:视频模型迎来「首次涌现」,视觉更可能通往通用智能

关于我们:

这里是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目。

「AI局内人」,国绕 AGI相关领域的技术发展、产品方向以及新的商业模式进行探讨和交流。

Founder Park 正在搭建 Al Native 的产品交流群,群内聚集着致力于在大模型相关领域创业的创业者、产品经理、研发工程师、对大模型技术和场景应用开发进展感兴趣的学者及投资人。

对更多内容感兴趣,欢迎关注公众号「Founder Park」。

展开Show Notes
对不起 cto老师的声音好像工藤新一国语版配音😂