- EP.3 IP Adapter对话阿文:一图定风格,我和AI的契约
这是一期录完就打脸的播客?! 1张参考图让AI听懂“我想要的风格”,IP Adapter是一份送给AI造梦者的礼物。全球贡献者太活跃,连作者想沉寂都被打脸,总被社区的更新折服,IP Adapter也是一份全球开发者带着爱的礼物。 这个项目真的是一个人肝出来的吗?它为什么是艺术家阿文的心头好,甚至带它上了春晚?本期继续延续技术+创作的双视角对话,讲述了这个开源走向全世界的故事。 本期人物 * 叶虎:IP Adapter作者,腾讯AI算法工程师 * 阿文:AbleSlide创始人、PPT设计师,AIGC/Blender知名KOL * 宙宙Jo:美元基金 AI 投资,热爱开源和视觉生成,Diffuseum社区及播客主理人 时间线 * 00:51: 叶虎的个人背景与研究兴趣 * 04:23 阿文的如何作为设计师,将diffusion用于自己的工作流 * 06:30 开发者和设计师各自理解的IP Adapter * 09:18 本项目开发的出发点和3个阶段 * 16:34 阿文如何从开源社区里关注到了这个项目 * 23:26 社区的有趣应用案例 * 25:23 阿文作为设计师的使用体验 * 27:20 IP Adapter的开发团队、开源初衷、训练成本 * 32:40 AI视频的未来工作流,端到端 vs 组件化? * 41:11 过去一年Diffusion领域最重要的时刻 * 51:41 对未来6-12个月的期待:Sora?SD3? * 56:04 对开源与商业的平衡的讨论 相关链接 * IP Adapter:github.com * Simon阿文:weibo.com阿文 * Disco Diffusion:github.com * MidJourney Image Prompts:docs.midjourney.com * IP Adapter ComfyUI插件的知名开发者Matteo Spinellie(cubiq):github.com * 创作者Karen用IP Adapter制作的折纸动画:twitter.com * 社区大神Inner Reflections:twitter.com * X上最新的IP Adapter案例:twitter.com 联系我们 Diffuseum 是一个对生成式图像、开源人工智能感兴趣的社区,这档播客记录我们关注的一线开发者的故事。 X:twitter.com WeChat: Jozhangsh
- EP.2 对话InstantID:我的脸,AI前赴后继的战场
只要上传一张照片,无需等待,我的脸立刻进入瞬息全宇宙。开源工具InstantID出现,让AI写真进入了新高度,一张脸可以实时出现在任意提示词描绘的场景里,LeCun都忍不住转发互动。回顾过去一年,写真是AI领域为数不多产品化成功的方向,无论技术怎么卷,好像我们还是最先关心自己的脸。 本期除了关注InstantID年轻开发者背后的故事外,也抛出了以下问题:AI人像的产品潜力是否还没挖掘完,哪些要素让这些算法团队在竞相厮杀?期待和听众们一起头脑风暴,欢迎分享任何想法。 本期人物 * 王浩帆:InstantID通讯作者,小红书AIGC算法工程师 * 归藏:AIGC知名KOL,Catjourney主理人,大厂产品设计师 * 宙宙Jo:热爱图像和开源,建设Diffuseum中,前AI投资 时间线 * 00:46 浩帆和InstantX小组 * 03:59 归藏和他正在做的Catjourney * 05:19 InstantID是什么:更高效、更自由的固定人像生成 * 07:30 两位嘉宾为什么会各自关注人像这个问题 * 10:36 InstantID 项目开发的历程 * 11:06 人脸固定的技术原理,最巧妙的设计是Controlnet的输入 * 14:02 社区应用和归藏的测评结果 * 19:02 用户的关注点:相似度、真实性、审美、生成成功率 * 22:28 现有市面产品,换脸 VS InstantID * 23:58 AI写真产品化的潜力,是否有独立团队的空间 * 35:25 Stable Diffusion社区近期变动,生态迁移的痛点 * 41:55 InstantID开源的正负反馈,缺乏长期激励 * 44:11 SD社区成就了年轻开发者崭露头角的第一步 * 46:57 SD3是否如期开源,模型继任者是否会易位 * 50:04 对开源项目长期激励的机制讨论 相关链接 * InstantID:instantid.github.io * 归藏的AI周刊:op7418.zhubai.love * CatJourney:catjourney.life * X社区中的InstantID用户案例展示:twitter.com twitter.com 联系我们 Diffuseum 是一个对生成式图像、开源人工智能感兴趣的社区,这档播客记录我们关注的一线开发者的故事。 * X: jojodecayz * WeChat: Jozhangsh * 公众号:Latent Cat * https://latentbox.com/en/diffuseum
- EP.1 00后一份课堂作业,如何让AI生图10倍加速
00 后 AI 研究者 Allen 的课堂大作业 LCM 让 Stable Diffusion 推理速度加快了 10 倍,让 AI 生成图像迈入了实时推理的台阶,也因此在开源社区获得了数百万的下载和应用。 本期播客除了分享这位年轻研究者的个人背景以及社区故事外,也抛出了一个开放性观点:生成的“实时性”对C端用户构成了AI交互体验的质变,因此蕴含着绝佳的产品机会。 那么,哪些形态的应用会因此得到变革?我们期待和听众们一起头脑风暴,欢迎和我们分享任何想法。 本期人物 * Allen Luo:清华大学交叉信息研究院硕士,LCM(Latent Consistency Models)、LCM-LoRA作者 * 宙宙Jo:美元基金 AI 投资,热爱开源,Diffuseum社区及播客建造者 时间线 * 00:35 00后研究者Allen的学术经历 * 02:36 为什么会对推理加速这个方向感兴趣 * 04:57 3个月内从课堂大作业发展到完整开源项目 * 06:10 LCM的原理,为什么可以让Stable Diffusion推理加快10倍 * 08:32 从理论到社区易用性的里程碑:LCM LoRA * 11:10 百万下载,超出预期的开源社区影响力 * 12:16 和Huggingface的合作方式 * 13:06 LCM当前的用户和代表应用案例 * 15:25 总结出圈的核心原因:“实时性”对终端用户交互体验带来了质变 * 17:27 社区对Allen的改变:从个体研究者到关注用户反馈 * 20:20 LCM的Roadmap:探索视频/AR媒介上的产品想法,关注实时推理对交互形态的改变 * 25:14 Sora发布的感受:对Diffusion的上限充满信心 * 30:00 观察95后AI研究者的共性:更追求结构性变化;动手能力强 相关链接 * Consistency Model:https://arxiv.org/abs/2303.01469 * LCM Hugging Face页面:https://huggingface.co/docs/diffusers/main/en/using-diffusers/inference_with_lcm * X社区中的LCM用户案例展示:https://twitter.com/search?q=%23LCM&src=typed_query 联系我们 Diffuseum 是一个对生成式图像、开源人工智能感兴趣的社区,这档播客记录我们关注的一线开发者的故事。 X/WeChat: Jozhangsh