只要上传一张照片,无需等待,我的脸立刻进入瞬息全宇宙。开源工具InstantID出现,让AI写真进入了新高度,一张脸可以实时出现在任意提示词描绘的场景里,LeCun都忍不住转发互动。回顾过去一年,写真是AI领域为数不多产品化成功的方向,无论技术怎么卷,好像我们还是最先关心自己的脸。
本期除了关注InstantID年轻开发者背后的故事外,也抛出了以下问题:AI人像的产品潜力是否还没挖掘完,哪些要素让这些算法团队在竞相厮杀?期待和听众们一起头脑风暴,欢迎分享任何想法。
本期人物
- 王浩帆:InstantID通讯作者,小红书AIGC算法工程师
- 归藏:AIGC知名KOL,Catjourney主理人,大厂产品设计师
- 宙宙Jo:热爱图像和开源,建设Diffuseum中,前AI投资
时间线
- 00:46 浩帆和InstantX小组
- 03:59 归藏和他正在做的Catjourney
- 05:19 InstantID是什么:更高效、更自由的固定人像生成
- 07:30 两位嘉宾为什么会各自关注人像这个问题
- 10:36 InstantID 项目开发的历程
- 11:06 人脸固定的技术原理,最巧妙的设计是Controlnet的输入
- 14:02 社区应用和归藏的测评结果
- 19:02 用户的关注点:相似度、真实性、审美、生成成功率
- 22:28 现有市面产品,换脸 VS InstantID
- 23:58 AI写真产品化的潜力,是否有独立团队的空间
- 35:25 Stable Diffusion社区近期变动,生态迁移的痛点
- 41:55 InstantID开源的正负反馈,缺乏长期激励
- 44:11 SD社区成就了年轻开发者崭露头角的第一步
- 46:57 SD3是否如期开源,模型继任者是否会易位
- 50:04 对开源项目长期激励的机制讨论
相关链接
- InstantID:instantid.github.io
- 归藏的AI周刊:op7418.zhubai.love
- CatJourney:catjourney.life
- X社区中的InstantID用户案例展示:twitter.com
twitter.com
联系我们
Diffuseum 是一个对生成式图像、开源人工智能感兴趣的社区,这档播客记录我们关注的一线开发者的故事。
- X: jojodecayz
- WeChat: Jozhangsh
- 公众号:Latent Cat
- latentbox.com