EP04 Graph Intelligence：AI驱动的科学探索新范式

我们在这档节目中一直在尝试解读并想象人工智能在生物医药领域重新定义探索科学的方式，本期我们将聚焦于通过图学习在解读复杂生物分子世界中的应用。

图模型由于其特殊的结构可以反映分子的空间结构和化学键关系，天然适合用来表示分子数据，并可以非常高效地处理这些非结构化数据。本期嘉宾会从实际应用的角度，深入探讨图模型在多模态数据融合中的应用，以及如何通过预训练图模型来提高性能。

如果你想要进一步了解图模型或AI4Science，可以下滑参考嘉宾推荐的一些在AI for science领域值得关注的研究人员和项目。

听前提醒：本期会有大量模型及数据相关英文名称，有一定机器学习或生物计算背景的知识的话听起来会比较轻松，也可以参考下面shownotes中对于一些图学习概念的简单介绍

【嘉宾介绍】

Camille, 香港中文大学CS PHD博士在读

研究方向：AI4Science and Graph Learning

【主要话题】

02:53 什么是图模型以及不同架构图模型的简单介绍

10:03 图模型与AI4Science领域其他模型相比的优势以及

12:14 GNN v.s. transformer在不同类型任务中的应用

14:03 Graph-based model 适合的计算场景

15:37 目前AI4Science领域中值得关注的模型：EGNN，Equiformer

17:00 Alphafold建模序列后是否可以使用图进行结构化的训练及预测？目前都有哪些进展？

22:18 除了蛋白质计算外还有哪些场景可以利用图模型？

24:42 基于图的模型与基于序列sequence的模型相比，在训练上有什么难点？

26:25 我们如何解决图数据中的噪声和不确定性？

27:40 针对图学习中多模态融合，在蛋白计算中如何将序列信息（如氨基酸序列）与结构信息结合？

27:29 图数据中存在数据截断的挑战吗？需要的算力如何？

32:41 基于图的diffusion model和传统的diffusion model有什么区别？

34:38 大规模预训练图模型的进展和挑战，图模型中的scaling law

38:29 图模型值得关注的研究和机构

42:02 AI模型在DNA及RNA研究中的应用

44:58 对想要入门AI4Science领域的人，有哪些推荐的学习资源

【Glossary】

encode：计算机的"翻译官"或"转换器"，将特征转换成数学语言；原始数据可能是：分子中的原子类型，社交网络中的用户特征或是蛋白质中的氨基酸信息，而encode要做的是：把这些特征转换成数学语言（向量），让计算机能够理解和处理，并保留原始数据中重要的信息

message passing：图模型中的“邻里信息交流会”，每个居民（节点）都有自己的信息，大家互相分享信息（message passing），最终每个人综合邻居的信息更新自己的认知，每个节点既是信息发送者也是接收者

over-smoothing：过度平滑，在深度图神经网络中，随着层数增加，不同节点的特征表示会逐渐变得相似，最终趋于一个相同的值。这种现象类似于信息的"过度混合"，导致节点失去独特性，使得模型难以区分不同节点的特征，从而影响预测性能。

1-hop：你的直接好友

2-hop：朋友的朋友

3-hop：朋友的朋友的朋友

backbone：图模型的基本架构，用于处理节点和边的基本信息，然后再添加其他模块来增强功能，基础的GNN类型架构包括：GCN (Graph Convolutional Network)，GAT (Graph Attention Network)，GraphSAGE等

拓扑信息：在图数据中，拓扑信息就像一张"关系地图"，记录了图中的连接关系（谁和谁相连，连接的强度和方向），结构特征（节点的连接数，重要程度等），以及全局特征（包括网络密度，层次关系和社区结构等）

【Reference】

研究者推荐：

Jure Leskovec：斯坦福大学计算机科学系的教授，研究领域主要是应用于大型互联系统中的机器学习，专注于对各种规模系统的复杂、丰富标签的关联结构、图和网络进行建模，从细胞中蛋白质的相互作用到社会中人类之间的相互作用

Yoshua Bengio：蒙特利尔大学的全职教授，同时也是 Mila - 魁北克人工智能研究所的创始人兼科学总监。他作为高级研究员共同领导了 CIFAR 机器与大脑学习项目，并担任 IVADO 的科学总监

个人主页：jian-tang.com