本期的 6 篇论文如下:
00:26 🧠 Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning(批评者-V:视觉语言模型批评者帮助捕捉多模态推理中的错误)
01:04 🤖 ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting(ChatGen:从自由聊天中自动生成文本到图像)
01:43 👕 TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models(TryOffDiff:基于扩散模型的高保真服装重建虚拟试衣)
02:24 🎥 Free$^2$Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models(自由引导:基于无梯度路径积分控制的增强型文本到视频生成与大规模视觉语言模型)
03:15 🤖 Morph: A Motion-free Physics Optimization Framework for Human Motion Generation(Morph:一种无运动的物理优化框架用于人体运动生成)
03:49 📄 LongKey: Keyphrase Extraction for Long Documents(长键:长文档的关键短语提取)
【关注我们】
您还可以在以下平台找到我们,获得播客内容以外更多信息
小红书: AI速递