从图形学到 AI 生成 3D：我们离 3D 版 Midjourney 还有多远？ | 对谈 Meshy.AI 创始人渊鸣

44分钟 ·1 年前

12803

大概 2020 年初的时候，胡渊鸣在知乎上发表过一个爆文，叫《99 行代码的冰雪奇缘》，那个时候他还在 MIT 读图形学的博士，在这篇文章下，第一名的评论是这么说的：“太巨了，图形+系统+编译，真的是创世的快乐”。

在这个之后他在图形学领域创业了几年，最近刚发布了新产品 Meshy.ai，一个 AI 生成 3D 的项目，这也是今年 AI 生成下最热门的方向之一。AI 生成文字、图片、视频、3D，基本是生成类方向的四块基石，前三者很多人大概都有些概念或者看过一些实际的产出，但相信还有不少人对 AI3D 领域很陌生，所以这期播客我就请来了图形学的专家渊鸣来一起聊聊这个领域的发展和 knowhow。

在这期播客中，我们理清了很多基础的概念，比如到底什么是图形学、如何理解渲染这件事、实现 3D 的一些基础技术路径等等，我们希望每个人都能通过这期播客了解到 AI3D 领域的基础知识，也能更好的理解图形学和未来世界的可能性。此外，我们也聊到了一些他作为科研 PhD 创业的心得体会等。

【人类博物馆】

导游：曲凯，42章经创始人

十号珍藏：胡渊鸣，Meshy.AI 创始人，清华大学姚班本科，MIT 计算机科学博士

【时光机】

1:42 当我们聊到图形学，我们到底在聊什么？

12:36 3D 数据的不同表达方式
- 12:44 点云
- 12:53 体素
- 14:23 NeRF
- 15:02 高斯散射
- 16:00 Mesh

21:07 2D+时间维度=视频，2D+空间维度=3D

22:25 AI 生成 3D 要解决的三类任务
- 22:32 文字生成贴图
- 22:56 文字生成 3D
- 23:51 图像生成 3D

29:49 当 VR 设备成为了下一代 iPhone，3D 资产会成为日常生活的重要组成

32:08 AI 生成 3D 的市场需求

33:29 我们距离一个 3D 版的 Midjourney 还有多远？

34:50 AI 生成视频与生成 3D，哪个会更快一些？

38:48 创业最深的感悟：Why 是比 How 更重要的事情

39:51 忘记自己从一个科学家角度对这个世界的理解

43:11 上帝说：要有光

【The gang that made this happen】

制作人：Celia

剪辑：思娜

片头 bgm：Mondo Bongo - Joe Strummer & The Mescaleros

【Reference】

渊鸣一不小心爆火的文章：99 行代码的《冰雪奇缘》

最后，我们的 AI 私董会也在持续报名中，目前已经聚集了一批市场上最好的 AI 创始人，欢迎点击链接报名（里面也有目前已加入的成员名单，可点击查看）

渊鸣 (左)，我，又在我家沙发

展开Show Notes

Ethan胡渊鸣

2023.12.17

经常听小宇宙吸收能量，没想到自己也能录一期分享所学。谢谢 42 章经的邀请、曲凯老师的主持。如果大家有其他关于图形学、3D AI、Meshy 的问题也欢迎留言，我尽可能回复 ^_^

UltronFG:有个问题不知道是不是方便回答，想问下meshy.ai和太极图形的关系是什么呀？

Musisi:非常期待后续的进展～

共16条回复

Jacknow

2023.12.17

主持节奏把得好，嘉宾回答的专业。

曲凯

:听众回复的又好又专业😃

我是凯撒

2023.12.17

非常硬核的一期。听完，有几点启示：
1/ 在数字化时代，信息获取越来越容易，同时，也带来信息过载的问题；

2/ 在做决策时，需要考虑信息的来源和可靠性。信息来源可靠，才能保证信息的真实性和准确性；

3/ 信息的相关性和实用性是重要的考虑因素。需要选择与自己的需求和目标相关的信息。个人的需求和偏好也是影响决策的重要因素；

琳琳Celia:哈哈哈还可以得到这种启示，是走错地方了吗？

llYaQoo

2023.12.19

作为前影视从业者，现在转到游戏pcg方向的TA已经快两年了，越来越发现其实程序化生成这个方向在中小团队里很难搭建起来完善的工具流，如果大部分操作需要在DCC软件内部去操作再导出，美术人员会很抵触，更希望所有操作能再引擎内去完成，这也让c++或者c#成为一项必备技能，很多之前转过来的人会说，现在如果再想从影视转游戏TA的门槛真的越来越高了…而且经历了前段时间装找工作的经历，发现现在pcg这个方向的需求好像变得越来越少，挺想问问嘉宾怎么看未来这个方向的一个发展前景

maajor:程序化TA都是从Faycry那波火起来的，大家一股脑做大世界，现在看看没几个公司做出来了。我感觉这一小波是技术过热了。游戏根据自己的玩法一定有适合的工程方式，houdini也只是大世界玩法需求下特定的产物，大世界制作成本太高，只有少数公司玩得起，玩法需求少了对这种技术需求就肯定少了，但游戏开发无论如何都是更依赖引擎的。我感觉迷茫的pcg从业者要么想想怎么用ai技术提升大世界制作效率，要么把经验当个游戏行业敲门砖多学学游戏开发别的方面的技能。

游戏人有态度--大盛:而且你不觉得我们当年学的软件技术都从很基础开始，但是后来者学习理论缺乏很多基础理论和实操，上来就用实际案例教初学者，这也是人才断档的开始

共10条回复

游戏人有态度--大盛

2023.12.21

这期内容真棒！

HD566301q

2023.12.19

开头bgm好好听啊

李不多

2023.12.19

32:41 作为渲染师，prompt 生成 3d 是一场灾难

jiaxzheng

2023.12.19

听下来能明显感受到 Yuanming 对商业和产品的理解越来越成熟了

猫猫头.

2024.10.03

1️⃣什么是图形学
定义：无论显示屏、XR都是要给用户输出视觉，图形学就是在研究如何更好的通过真实感渲染，呈现数字内容
基础科学：线性代数
构成：软件+硬件+算法

2️⃣什么是渲染 Rendering
定义：把3D以物理真实/风格化的方式变成2D（把基于3D的数据模型渲染成有真实感的2D图像，一键修图不是渲染）
难点：现实世界中，光线会在场景中不断地弹射。比如当你打开一盏灯，并不只有灯照的地方会变亮，是整个房间都亮了。因为灯发出来的光子照亮物体以后会继续在整个空间里传播，带来了巨大的计算量。光线遇到物体表面，会根据不同材料属性产生镜面反射和漫反射。光线传输的仿真带来了很多渲染算法方面的研究

3️⃣主流3D Representation
点云 point cloud：独立的点，不规则，但更通用，直接作为算法输出
体素 voxels：3D版像素风：规则分布、计算机体结构友好，适应2D神经网络栅格（升一维度）
神经辐射场 NeRF：用一个神经网络去表示这个场景里面的每一个点，从不同角度观察的样子；数据很大，需要压缩，适合神经网络
高斯散射：（NeRF替代品，点云的一种）用一堆在空间中的点，每一个点有自己一定程度的方向性和大小，所以可以表示一个场景的 3D信息
可以不断微调优化
多边形表格 Mesh：三角网格（四边形/五边形网格），实时图形Real Time Graphics，以三角形为单位进行几何渲染；表面花纹、材质用纹理贴图实现
主流表达：Mesh三角网格，应用于手机游戏、建模，拓扑，当前的输出内容必须是Mesh才能吻合现有图形的使用场景
NeRF、高斯散射可以把真实世界的东西放到游戏引擎里，但是实际应用还需要5年

4️⃣ 4. 图像学进展
2000年：渲染很难出现本质性突破，业界兴趣蔓延至仿真、数理方程描述
2012年：AlexNet出现，使得业内对AI的关注度回暖，“图形学+AI”由此催生
图形学的推动：硬件+软件+算法+商业生态，相互迭代的耦合关系
LLM大模型对于图形学进展的推进贡献没有那么大（LLM主要应用于语言）；Stable Diffusion的开源的图像模型提供了很好的学术研究基础
3D的挑战：2D的512x512分辨率还可以，3D的512x512x512计算量就非常高。需要在尽可能少的硬件资源下，通过好的算法，把场景渲染得更加符合人类的视觉系统

5️⃣ 3D AI可以解决的任务
1. 文字生成贴图：材质/纹理，Mechy.ai可以达到4K分辨率，同时有很好的风格控制）
2. 文字生成3D：需要用户提供三维模型，同时生成模型+贴图，可以生成游戏中远景和道具
3. 图像生成3D：图像比文字可控，通过多角度数据集训练AI预测正面+背面，但3D模型的数据集较少（2D：3D=50亿:500万，sketchfab）

6️⃣ 3D的UGC
3D资产的市场只有2D资产的1/10-1/20
UGC场景：在换装游戏中输入提示词画衣服；由于3D技术还不够成熟，C端用户对于生成质量要求不高
2D产品：photoshop是美图秀秀的专业版，Adobe AE/PR是剪映的专业版，目前3D AI还仅停留在专业工具（Blender，Maya）；2D产品的上手轻松，但3D建模工具的门槛很高

7️⃣ Vision Pro是不是iPhone时刻？
VR headset 的MAU大几百万，比手机少很多；但是类比iPhone是2007年出现的，到iPhone4出现只过去了4年。因此对于3D市场的爆发，也可以给VR headset 4年的观察期（2026）

8️⃣ 3D AI的市场需求
1. 3A游戏成本里有50%都是3D美术，越是开放世界游戏，游戏资产就越多，目前的游戏资产是交给外包公司1000元/天/人，随便一个资产的成本就是20000元
2. 专业市场：30-100亿美元，哪怕只穿透市场的1%，也是一个Midjourney级别的产品了

9️⃣ 3D AI到Midjourney还有多远？
市场：消费级别的市场还不大，等2026年小米版的Vision Pro出现了，C端用户对于3D内容就不会只满足于图片、视频，会在交互上有需求
技术：在UV、拓扑、生成模型的质量、贴图的质量、可控性速度都还没解决，但是技术进展很快

🔟 视频vs3D，哪个会更快一些？
2D+时间=视频，2D+空间=3D，3D representation 比视频更复杂
视频技术成熟度和3D半斤八两，还在解决2s-8s的问题，但视频可以通过插帧补帧、AI 剪辑做效果
视频的市场大很多，而且已经具备消费场景

感谢曲凯老师和胡老师的访谈！这周准备面Meshy.AI的实习生，第一次当课代表，求锦鲤🥹

我有笔你有白鞋吗

2023.12.27

可惜meshy在目前的AI 3D中是比较垫底的存在

雨萌yumeng

2023.12.20

曲老师帮我们科普的贼好

zooooooooooe

2023.12.17

29:02 游戏3D建模从业者报道

Diiiiiiiii

2023.12.23

速记：目前2D 图像的生成通过 Diffusion 已经解决得不错，接下来有两个发展维度，一个是时间上加一维，从图像到视频，另一个是空间上加一维，从 2D 图像到 3D 图像。难度上二者差不多，但是需求场景上差了不少。前者的受众是几十亿人，而后者如果看 ARVR 设备的 MAU 则只有几百万人，差了三个数量级（但如果加上 3D 游戏的用户，差距会少一些）。这直接导致了训练的数据量、商业价值 TAM 也是 3 个数量级的差距。所以大量的团队选择了前者，蜂拥过去做视频生成，而后者则现阶段更多寄生在游戏创作上。

游戏人有态度--大盛

2023.12.21

13:21 虽然都是专业术语，但是都是我日常工作接触的内容