大家好。欢迎来到 AI Odyssey。本期播客我们有幸邀请到了文生图领域内的两位专家:林之秋和李嘉琛。两位嘉宾和主播深入探讨了文生图模型的最前沿研究,涵盖了模型的结构原理、推理加速以及评估方法。此外嘉宾还分享了模型架构的细节和优化技巧,以及模型评估的挑战和解决方案。本期内容丰富,为大家提供了一次深入了解文生图模型的机会,相信本期播客能带给大家新的启发和思考。欢迎收听,期待和大家一起探索AI的奥秘。
嘉宾介绍:
林之秋:CMU机器人研究所四年级博士,关注vision-language model以及generative AI。Twitter: @ZhiqiuLin
Jiachen Li (李嘉琛, 推特:@JiachenLi11) :加州大学圣塔芭芭拉分校 (UCSB)三年级PhD,主攻文生图模型,机器人控制,多模态学习。Jiachen带队参加了Amazon SimBot Challenge,获得了第二名以及10w美元的奖金。
本期主播:
Leo Zhao: 硅谷大厂高级机器学习工程师,GenAI LLM发烧友
Shownotes:
00:34 嘉宾自我介绍
02:08 讨论文生图模型的分类:闭源模型和开源模型,以及它们的特点和区别
03:52 探讨闭源模型和开源模型在数据质量和模型架构上的差异
06:06 分析 Diffusion Model (扩散模型)的原理,包括其与 GAN(生成对抗网络)的比较和优化
09:33 解释 Stable Diffusion 模型的特点,包括在潜在空间的生成和文本条件的引入
11:44 详细介绍 Diffusion Process 的理论基础,包括随机微分方程和逆过程的概念
16:00 讨论LCM(一致性模型)在降低推理步骤和保持生成质量方面的作用
20:42 探讨生成模型的评估指标,包括对齐度、质量、人工评估和自动化指标的重要性
27:02 分析现有自动化指标的局限性,包括 CLIP Score 的问题和改进方向
33:29 探索奖励建模在引导生成模型方面的应用和挑战
38:47 讨论不同奖励模型策略对生成模型的影响及训练的挑战
44:06 探讨用于评估和改进生成模型的新方法,包括弱模型指导强模型的潜力
49:44 讨论提高生成模型文本理解能力的重要性及其在专业应用中的潜在应用
54:29 探索用于生成模型评估的新基准和方法,重点关注文本对齐
59:36 讨论合成数据在生成模型训练中的应用及潜在优势
感谢收听,我们下期再会~