Vol.26 对谈生数科技CTO鲍凡：视频模型迎来了「首次涌现」，视觉更有可能通往 AGI

Sora 基于 DiT（Diffusion Transformer）架构，把长视频生成的效果提高到了前所未有的水平，也掀起了全球范围内的视频生成热潮。

11 月份，作为国内代表的视频模型公司，生数科技发布了旗下产品 Vidu 的 1.5 版本，全新上线「多图参考」功能，官方介绍该版本实现了视频生成模型的新突破：突破「一致性」难题、理解多样化的输入。

尤其是，多主体一致性的能力，可以说是解决了视频生成模型的「杀手级」难题。

对比文本生成模型的话，这可以说是视频模型的「首次智能涌现」。

事实上，Vidu 背后的团队，比 OpenAI 更早实践了 Diffusion Transformer 架构。2022 年 9 月，还在清华大学朱军教授实验室的鲍凡发表了 U-ViT 架构论文，12 月伯克利团队发布了路线同源的 DiT 架构，这一年的 CVPR，大会接收了清华大学的 U-ViT，反而拒收了伯克利的 DiT。

我们找到生数科技的 CTO 鲍凡，也是 U-ViT 论文的一作，聊了聊 Vidu 最新版本取得的成果，以及作为全球范围内最早实践 Diffusion Transformer 的专家，他对于视频生成领域的观察和理解。

本期节目，极客公园创始人 & 总裁张鹏，和生数科技联合创始人 & CTO鲍凡，一起聊聊视频生成模型的技术路线与商业化现状。

时间轴：

00:03:33 Vidu 1.5版本中让人惊喜的新功能：上下文能力

00:06:06 从单主体到多主体一致性，技术上是怎么实现的？

00:12:10 为什么给视频模型设计上下文能力？上下文增加后，推理效率有影响吗？

00:18:14 多主体一致性是视频模型的「能力涌现」吗？

00:24:55 多主体一致性会如何影响视频创作行业？

00:28:25 Vidu的下一步：继续scale up

00:34:37 视觉是实现AGI的另外一条路吗？

00:40:57 生数科技的战略，不止图像与3D

00:47:46 Scaling Law真的遇到墙了吗？

00:56:55 Vidu如何和大厂竞争？

01:07:07 生数科技会如何找PMF？

01:11:40 模型能力泛化后，人类与AI的交互会怎么变？

01:17:00 2025年视频生成模型会怎么发展？

01:18:50 科研 vs 创业：5% 的发散，95% 的收敛

关于我们：

这里是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目。

「AI局内人」，国绕 AGI相关领域的技术发展、产品方向以及新的商业模式进行探讨和交流。

Founder Park 正在搭建 Al Native 的产品交流群，群内聚集着致力于在大模型相关领域创业的创业者、产品经理、研发工程师、对大模型技术和场景应用开发进展感兴趣的学者及投资人。

对更多内容感兴趣，欢迎关注公众号「Founder Park」。

时间轴：

相关阅读：

关于我们：