
- [Google]AudioLM: 一种用于音频生成的语言建模方法
一、概述 AudioLM 是 Google Research 提出的一种新型音频生成框架,旨在生成具有长期一致性和高质量的音频。其核心思想是将音频映射到离散的 token 序列,并将音频生成转换为该表征空间中的语言建模任务。 二、主要思路 AudioLM 利用现有的音频 tokenizer 来平衡重建质量和长期结构之间的权衡,并提出了一种混合的 tokenization 方案,以实现这两个目标。 * 语义 token: AudioLM 利用在音频上预训练的掩码语言模型的离散化激活来捕获长期结构,例如语音的语法和语义内容,以及钢琴音乐的和声和节奏。 * 声学 token: AudioLM 使用 SoundStream 神经音频编解码器生成的离散码来实现高质量合成,捕获音频波形的细节。 AudioLM 通过在大型原始音频波形语料库上进行训练,学会在给定简短提示的情况下生成自然且连贯的延续。当在语音上进行训练时,即使没有任何文本或注释,AudioLM 也能生成语法和语义上合理的语音延续,同时还能保持未知说话人的身份和韵律。此外,该方法还扩展到语音之外,能够生成连贯的钢琴音乐延续,尽管训练时没有任何音乐的符号表示。 三、关键技术 * 混合 tokenization 方案: 结合语义和声学 token,分别捕获音频的长期结构和细节信息。 * "在该 tokenization 方案中,语义 token 启用长期结构一致性,而以语义 token 为条件对声学 token 进行建模则支持高质量音频合成。" * 分层建模: 首先对整个序列的语义 token 进行建模,然后将其作为条件来预测声学 token。 * "具体来说,我们采用了一种分层方法,首先对整个序列的语义 token 进行建模,然后将其用作条件来预测声学 token。" * 多阶段 Transformer 语言模型: 在提出的 token 上运行,分别进行语义建模、粗声学建模和精细声学建模。 四、实验结果 * 语音延续: 在仅提供 3 秒未知说话人语音的提示下,AudioLM 生成的延续几乎无法与原始语音区分开来,同时保持了说话人的身份、韵律和录音条件。 * 钢琴延续: 在钢琴录音上进行训练时,AudioLM 生成了令人信服的延续,在旋律、和声、音调和节奏方面与提示一致。 * 语义理解: AudioLM 在 sWUGGY 和 sBLIMP 零样本指标上取得了最佳成绩,证明了其在没有任何文本监督的情况下建模语言内容的能力。 * 语音合成检测: 为了减轻潜在的滥用风险,AudioLM 框架还包含一个能够以非常高的准确率检测 AudioLM 生成的语音的分类器。 五、主要贡献 * 提出了一种新的音频生成框架 AudioLM,该框架结合了语义和声学 token,以实现长期一致性和高质量。 * 比较了从预训练的 w2v-BERT 中提取的语义 token 和 SoundStream 中的声学 token 在语音数据集上的表现,结果表明它们在语音可辨别性和重建质量方面互补。 * 展示了 AudioLM 在不依赖文本注释的情况下生成语音、语法和语义连贯的语音的能力,并能保持未知说话人的声音、韵律和录音条件。 * 展示了 AudioLM 也适用于音乐生成,能够生成与提示一致的钢琴序列。 * 提出了一种有效的分类器,可以高精度检测 AudioLM 生成的语音,以减轻潜在风险。 六、潜在应用 * 帮助有语言障碍的人士进行语音表达。 * 辅助音乐创作。 * 生成各种音频内容,如多语言语音、复调音乐和音频事件。 七、潜在风险及应对 * AudioLM 继承了所有基于文本的语言模型的风险,例如反映基础数据中的社会偏见。 * 生成逼真的语音延续可能会被恶意利用,例如欺骗生物识别或模仿特定说话人。 为了应对这些风险,研究人员提供了一个可以高精度检测 AudioLM 生成的音频的分类器,并强调负责任的 AI 实践的重要性,以防止滥用 AudioLM。 八、结论 AudioLM 是一种极具潜力的音频生成框架,能够生成高质量且具有长期一致性的音频。其混合 tokenization 方案、分层建模和多阶段 Transformer 语言模型的设计为音频生成领域带来了新的突破。同时,研究人员也关注到 AudioLM 潜在的风险,并提供相应的应对措施,以确保该技术的负责任使用。 九、未来方向 * 扩展到其他类型的音频,如多语言语音、复调音乐和音频事件。 * 将 AudioLM 集成到编码器-解码器框架中,用于文本到语音或语音到语音翻译等条件任务。
- [DeepSeek]Janus: 解耦视觉编码以实现统一的多模态模型
本文介绍了 Janus,一个统一的多模态理解和生成模型,其核心在于解耦视觉编码,以分别满足理解和生成任务的不同需求。 重要观点和事实: * **多模态模型的趋势:**近年来,多模态大模型在理解和生成领域都取得了显著进展。研究人员致力于构建更强大、更通用的多模态模型,将理解和生成任务结合起来。 * 现有统一模型的局限性: 传统的统一模型通常使用单一的视觉编码器来处理理解和生成任务,但这会导致两种任务之间产生冲突和权衡,尤其是在多模态理解方面表现不佳。 * **Janus 的解决方案:**Janus 提出了解耦视觉编码的方案,为理解和生成任务分别引入两个独立的视觉编码路径,并通过相同的 Transformer 架构进行统一处理。 Janus 的优势: 1. 缓解冲突: 解耦视觉编码缓解了理解和生成任务对视觉编码器粒度需求不同的冲突,消除了在选择视觉编码器时需要在两种任务之间进行权衡的问题。 2. 灵活性和可扩展性: 解耦后,理解和生成任务都可以独立采用各自领域最先进的编码技术。此外,Janus 未来还可以容纳其他类型的输入,例如点云、脑电信号或音频数据。 Janus 的架构: * 独立的编码方法: 针对纯文本理解、多模态理解和视觉生成任务,Janus 分别采用独立的编码方法将原始输入转换为特征,然后由一个统一的自回归 Transformer 进行处理。 * 统一的 Transformer 架构: 所有特征序列被连接起来形成一个多模态特征序列,随后被输入到 LLM 中进行处理。LLM 的内置预测头用于纯文本理解和多模态理解任务中的文本预测,而随机初始化的预测头用于视觉生成任务中的图像预测。 训练过程: Janus 的训练分为三个阶段: 1. 训练适配器和图像头: 主要目标是在嵌入空间内创建视觉和语言元素之间的概念连接,使 LLM 能够理解图像中显示的实体,并具备初步的视觉生成能力。 2. 统一预训练: 使 Janus 学习多模态理解和生成能力。使用纯文本数据、多模态理解数据和视觉生成数据进行训练。 3. 监督微调: 使用指令微调数据增强模型的指令跟随和对话能力。 实验结果: * 多模态理解: 在 MMBench、SEED-Bench 和 POPE 等基准测试中,Janus 超过了具有类似参数大小的现有统一模型,甚至超过了一些参数规模更大的特定任务模型。 * 视觉生成: 在 MSCOCO-30K 和 GenEval 基准测试中,Janus 的性能超过了统一模型 Show-o 和一些流行的仅生成方法,例如 SDXL 和 DALL-E 2。 消融研究: * 解耦视觉编码的重要性: 消融研究验证了解耦视觉编码对提升多模态理解能力的重要性,并证明了使用单一视觉编码器会导致理解和生成能力之间的权衡。 * 统一训练的有效性: 与仅进行理解或仅进行生成的训练相比,统一训练的性能相当,表明 Janus 能够在最小程度影响多模态理解性能的情况下,融入强大的生成能力。 结论: Janus 作为一个简单、统一和可扩展的多模态理解和生成模型,其解耦视觉编码的设计理念有效地解决了传统统一模型的局限性,并在实验中取得了领先的性能。Janus 的灵活性和可扩展性使其在未来具有巨大的发展潜力,有望成为下一代多模态通用模型的灵感来源。
- [Baichuan]BAICHUAN-OMNI多模态模型技术报告
介绍了百川智能开发的首个开源 7B 多模态大语言模型 (MLLM) Baichuan-Omni。该模型能够同时处理和分析图像、视频、音频和文本等多种模态信息,提供先进的多模态交互体验,并在多个基准测试中表现出强大的性能。 核心思想: 1. 构建全面的多模态训练数据: Baichuan-Omni 的训练数据涵盖了图像、视频、音频和文本等多种模态,并融合了开源、合成和内部标注的数据集。 * 图像数据: 包括图像描述、交错图文、OCR 数据和图表数据等,来源包括 PIN-14M、MINT-1T、LAION-5B、OBELIC 等开源数据集,以及 Cauldron、Monkey、ArxivQA、TGDoc、MM-Self-Instruct、MMTab 等用于第二、三阶段训练的数据集。 * 视频数据: 来源包括 LLaVA-NExT 中的 NExTVideo、ActivityNet-QA、ShareGPT4Video 和 WebVid 等开源数据集,以及使用 GPT-4o 为 YouTube 视频生成的描述。 * 音频数据: 包括不同录音环境、语言、口音和说话者的音频数据,并使用内部 ASR 系统和开源模型生成多版本文本,通过模型集成策略进行文本过滤和纠错。 * 文本数据: 来自网页、书籍、学术论文、代码等多个领域,经过筛选以提高多样性和质量。 * 跨模态交互数据: 包括图文音和视频音文数据集,例如将文本数据分割为 1:3 比例,将初始四分之一文本转换为音频描述,并通过任务提示引导模型预测剩余四分之三文本描述。 1. 多模态对齐预训练: 该阶段的目标是在不同模态之间进行对齐。 * 图像-语言分支: 使用大量图文对训练视觉-语言模型,并利用其视觉能力进一步训练视频投影器。 * 视频-语言分支: 利用图像-语言分支的视觉能力,使用冻结的视觉编码器和 LLM 主干训练视频投影器。 * 音频-语言分支: 在视觉和视频数据预训练的 LLM 基础上,引入 Whisper-large-v3 模型的音频编码器和新的音频投影器。 1. 多任务微调: 该阶段使用多任务跨模态交互训练语料库,涵盖 200 多个不同任务,包括纯文本、音频、图文、视频文和图音频交互数据。 * 纯文本数据: 涵盖知识问答、数学、逻辑推理、代码生成、文本创作、信息处理、基于角色的任务和安全相关数据。 * 图像理解数据: 主要使用 vFLAN 数据集,并通过基于损失的过滤方法清理数据集。 * 音频理解数据: 包括 ASR、情感识别和音频问答等任务数据,并使用内部 ASR 系统和开源模型生成多版本文本,通过模型集成策略进行文本过滤和纠错。 重要发现: * Baichuan-Omni 在多个多模态和单模态基准测试中表现出色,超越了现有的开源多模态模型,并与一些专有的多模态模型相媲美。 * 研究探索了自然多模态人机交互的早期阶段。 * 消融实验表明,增加视频帧数、提高视觉编码器分辨率以及在预训练阶段加入视频-文本数据都有助于提高模型的视频理解能力。 贡献: * 提出了一个开源、高性能的全模态基础模型 Baichuan-Omni,能够同时处理文本、图像、视频和音频输入,并提供多语言支持。 * 探索了自然多模态人机交互的早期研究,例如使用流式输入处理音频和视频。 * 开源了 Baichuan-Omni 模型、训练代码和评估脚本,以促进研究社区的进步。 未来方向: * 增强文本提取能力。 * 支持更长的视频理解。 * 开发与 LLM 集成的端到端 TTS 系统。 * 提高对人类语音和自然环境声音的理解能力。
- [Apple]MM1.5:多模态大语言模型微调的方法、分析与见解
一、 MM1.5 简介 MM1.5 是一系列多模态大型语言模型 (MLLM),包括密集模型(参数规模从1B到30B)和专家混合 (MoE) 模型。该模型在 MM1 [118] 的基础上进行了显著升级,能够出色地处理各种多模态任务,包括: * 通用领域和富文本图像理解:从理解简单图像到复杂的富文本图像。 * 粗粒度到细粒度理解: 从理解图像整体到具体细节。 * 单图像到多图像推理: 从单张图像理解到多张图像之间的推理。 二、 MM1.5 的主要能力 * 视觉指代和定位: MM1.5 具备强大的细粒度图像理解能力,能够解释文本提示以及点和边界框等视觉提示。 * "MM1.5 offers robust, fine-grained image understanding, extending beyond text prompts to interpret visual prompts such as points and bounding boxes." * 多图像推理和上下文学习: MM1.5 得益于大规模交错预训练,具备强大的上下文学习和多图像推理能力。 * "MM1.5 benefits from large-scale interleaved pre-training, resulting in strong in-context learning and multi-image reasoning capabilities right out of the box." * 扩展性: MM1.5 架构具有强大的扩展性,参数规模可达 30B,并在各种基准测试中取得了竞争力的性能。 三、 MM1.5 的变体 * MM1.5-Video: 专为视频理解而设计的变体,探索了仅使用图像数据训练 MM1.5 的无训练方法,以及在视频特定数据上的监督微调方法。 * MM1.5-UI: 专为移动 UI 理解而设计的变体。 四、 MM1.5 的关键设计 * 动态图像分割: 也称为 AnyRes [101],用于高分辨率图像理解。 * "Besides data ablation, we also provide detailed ablation regarding dynamic image splitting, also known as AnyRes [101] (Section 3.5, also see Figure 1), for high-resolution image comprehension." * 坐标标记: 用于视觉指代和定位,即使是像 GPT-4o 这样的强大专有模型也依赖于一组标记 (SoM) 提示 [167] 来指代图像区域。 * "MM1.5 can generate grounded responses by grounding text output with image bounding boxes. This capability is notably under-explored in most open-source models (e.g., LLaVA-OneVision [74] and Phi-3-Vision [3]), and even in strong proprietary models like GPT-4o, which rely on set-of-mark (SoM) prompting [167] to reference image regions." 五、 数据混合的重要性 * 不同数据类别对模型性能的影响: 富文本数据显著提高了富文本和知识基准的平均得分。科学数据提高了知识平均得分。指代和定位数据则使模型具备了这方面的能力。 * "Text-rich data significantly improves text-rich and knowledge benchmarks on average. Science data improves knowledge average score. Referring and grounding data enables this capability." * 单图像、多图像和纯文本数据的混合比例: * "Mixture of single-image, multi-image, and text-only data. Now, we study the mixture ratios, wsingle, wmulti and wtext." 六、 与其他 SOTA 模型的比较 MM1.5 在多个基准测试中取得了与其他 SOTA 模型相当甚至更优的性能,具体比较结果可参考原文中的表格。 七、 总结 MM1.5 是一系列强大的多模态大型语言模型,具备广泛的多模态理解和推理能力,并在多个基准测试中取得了竞争力的性能。该模型的开源发布将推动多模态领域的研究和应用发展。
- Pixtral 12B: 兼顾文本和多模态任务的多模态模型
介绍了 Pixtral 12B,一个由 Mistral AI 开发的 120 亿参数多模态语言模型。Pixtral 12B 能够理解自然图像和文本,并在多项多模态基准测试中取得领先成绩,超越了许多更大的模型。 重要特点: * 强大的多模态推理能力: Pixtral 12B 在多模态任务上表现出色,优于同等规模的开源模型,甚至超越了 Llama-3.2 90B 等更大的模型。 * 卓越的文本理解能力: 与许多专注于多模态能力而牺牲文本性能的开源模型不同,Pixtral 12B 在文本任务上也表现出色,使其成为文本和视觉任务的理想替代方案。 * 新颖的视觉编码器: Pixtral 12B 采用从头开始训练的全新视觉编码器 Pixtral-ViT,能够以自然分辨率和纵横比处理图像,为用户在处理图像时提供了更大的灵活性。 * 长上下文窗口: Pixtral 12B 拥有 128K token 的长上下文窗口,可以处理任意数量的图像。 * 开源和标准化评估: Pixtral 12B 在 Apache 2.0 许可下发布,并贡献了一个开源基准测试 MM-MT-Bench,用于评估实际场景中的视觉语言模型,并提供了详细的分析和代码,以实现多模态 LLM 的标准化评估协议。 关键创新: * Pixtral-ViT 视觉编码器:使用 ROPE-2D 实现,支持可变图像大小和纵横比。 * 使用序列打包和块对角注意力掩码,提高效率。 * 在需要细粒度推理的任务(如图表和文档理解)中表现出色。 * MM-MT-Bench 基准测试:评估多模态模型在实际应用场景中的多轮指令遵循能力。 * 与 LMSys 视觉排行榜的 ELO 评分高度相关。 * "Explicit" 提示词设计:明确指定输出格式,提高评估的准确性。 * 显着提高了领先模型的性能。 * 灵活的解析指标:缓解了模型因输出格式差异而受到的惩罚。 * 揭示了某些模型在遵循指令方面的不足。 主要结果: * 在 MM-MT-Bench 和 LMSys 视觉排行榜上,Pixtral 12B 优于同等规模的开源模型,并接近 Qwen2-VL 72B 和 Llama-3.2 90B 等最大开源模型的性能。 * 在文本基准测试中,Pixtral 12B 也始终优于同等规模的开源模型。 * 通过使用 "Explicit" 提示词和灵活的解析指标,Pixtral 12B 的评估结果更加准确可靠。 重要引言: * "与相同评估设置下规模相似的模型相比,我们发现 Pixtral 提供了强大的多模态推理能力,而不会牺牲纯文本推理性能。" * "我们开源了一个名为多模态 MT-Bench(MM-MT-Bench)的新基准测试,以类似于纯文本变体的方式评估指令调整的多模态模型的性能。" * "我们发现,常用的提示词没有正确指定输出格式......因此,领先模型需要明确指定所需输出格式的提示词。" 结论: Pixtral 12B 是一个先进的多模态模型,在纯文本和多模态任务中都表现出色。其新颖的架构、强大的性能和对标准化评估的贡献使其成为复杂多模态应用的强大工具。 建议: * 探索 Pixtral 12B 在各种多模态应用中的潜力,例如图像字幕、视觉问答和文档理解。 * 使用 MM-MT-Bench 和 "Explicit" 提示词设计来评估和比较其他多模态模型。 * 研究 Pixtral-ViT 视觉编码器对其他视觉语言任务的影响。
- Molmo and PixMo State-of-the-Art Multimodal Models
本文介绍了Molmo,这是一系列最先进的开放式视觉语言模型(VLM)。Molmo的独特之处在于其完全开放的权重和数据,不依赖于任何专有VLM生成的合成数据,从而为构建高性能VLM奠定了基础。 主要发现 * Molmo家族中最有效的模型MolmoE-1B,基于OLMoE-1B-7B混合专家语言模型,在学术基准测试和用户偏好方面几乎与GPT-4V的性能相匹配。 * 基于OLMo-7B-1024和Qwen2 7B的Molmo-7B-O和Molmo-7B-D模型,在学术基准测试和用户偏好方面均优于GPT-4V,并接近GPT-4o的性能。 * 性能最佳的Molmo-72B模型,基于Qwen2 72B,在学术基准测试中取得了最高分,并在用户偏好排名中位列第二,仅次于GPT-4o。 * 最佳模型的性能优于许多最先进的专有系统,包括Gemini 1.5 Pro、Flash和Claude 3.5 Sonnet。 重要性 Molmo的开放性对科学探索具有重要意义,因为它允许研究人员深入了解如何从头开始构建高性能VLM,而无需依赖专有模型或数据。 PixMo-Cap数据收集 “我们的关键创新是一个简单但有效的数据收集策略,它避免了这些问题:我们要求注释者在60到90秒内用语音描述图像,而不是要求他们写描述。我们提示注释者详细描述他们看到的一切,包括空间定位和关系的描述。根据经验,我们发现通过这种模态切换‘技巧’,注释者可以在更短的时间内提供更详细的描述,并且对于每个描述,我们都会收集音频收据(即注释者的录音),以证明没有使用VLM。” 未来方向 “这个新的指向数据使我们的模型能够通过指向支持答案的像素来更自然地回答一些问题,提高计数精度(模型通过指向计数),我们相信它将开辟一个重要的未来方向,即VLM使代理(例如机器人,网络代理)能够通过在其环境中指向来行动,例如,指向导航航点,要拾取的对象或要按下的用户界面按钮。” 结论 Molmo和PixMo代表了构建开放和高性能VLM的重要一步,为多模态研究和应用开辟了新的可能性。
- Aria: An Open Multimodal Native Mixture-of-Experts Model
主题: 介绍 ARIA,第一个开源的多模态原生混合专家模型 (MoE),其在各种多模态、语言和编码任务中表现出最佳性能。 主要观点和事实: * 多模态原生: ARIA 是一个单一模型,能够理解多种输入模态(如文本、代码、图像、视频),其性能可与类似规模的模态特定模型相媲美或超越。它为用户提供无缝的多模态体验,无需区分不同模态的输入。 “多模态原生模型指的是一个单一模型,它能够跨多种输入模态(例如文本、代码、图像、视频)具备强大的理解能力,并且其性能与类似规模的模态特定模型相媲美或超越。” * 混合专家架构: ARIA 的核心是一个细粒度的 MoE 解码器,它通过专家专业化实现更有效的参数利用,从而实现比密集解码器更快的训练和推理速度。每个文本/视觉 token 激活的参数分别为 3.5B/3.9B。 “MoE 的核心思想是用一组专家替换 Transformer 中的每个前馈层(FFN),其中每个专家在结构上与 FFN 相同。” * 轻量级视觉编码器: ARIA 使用一个 438M 参数的轻量级视觉编码器将视觉输入(图像或视频帧)转换为连续的视觉标记,与词嵌入具有相同的特征维度,从而使 MoE 能够无缝集成视觉和语言输入。 “我们设计了一个轻量级的视觉编码器,将视觉输入(即图像或视频帧)转换为与词嵌入具有相同特征维度的连续视觉标记,这使得 MoE 能够无缝地集成视觉和语言输入。” * 大规模预训练: ARIA 在 6.4T 语言标记和 400B 多模态标记上进行预训练。预训练数据经过精心策划,来自各种来源,包括交错的图文网页数据、合成图像描述、文档转录和问答对、合成视频描述和问答对。 “ARIA 在 6.4T 语言标记和 400B 多模态标记上进行预训练。我们开发了一个严格的程序,从各种来源中筛选高质量的数据。” * 四阶段训练流程: ARIA 采用四阶段训练流程,包括语言预训练、多模态预训练、多模态长上下文预训练和多模态后训练。每个阶段都旨在逐步增强某些模型功能,同时保持早期阶段获得的功能。 “我们设计了一个四阶段的训练流程,包括语言预训练、多模态预训练、多模态长上下文预训练和多模态后训练。每个阶段都旨在逐步增强某些模型功能,同时保持早期阶段获得的功能。” * 专家模态特化: 尽管采用模态通用架构,但 ARIA MoE 在预训练后自然地产生了多模态专家特化。这意味着某些专家更擅长处理特定模态的输入,从而提高整体性能。 “分析表明,尽管采用了模态通用架构,但我们的 MoE 在预训练过程中学习了有效的专家利用。” * 优异的性能: ARIA 在各种基准测试中表现出最先进的性能,包括多模态理解、语言理解、编码和长上下文多模态理解。它在许多任务上优于其他开源模型,并在某些多模态任务上与专有模型(如 GPT-4o 和 Gemini-1.5)相媲美。 重要结论: * ARIA 是一个强大的开源多模态原生模型,在各种任务中表现出优异的性能。 * 专家特化和四阶段训练流程对实现高性能至关重要。 * ARIA 的开源性质和易于采用的代码库使其成为研究和实际应用的宝贵工具。 未来方向: * 探索新的预训练数据和训练策略,以进一步提高性能。 * 研究如何在更广泛的任务和领域中应用 ARIA。 * 开发更有效的推理方法,以便在资源受限的环境中部署 ARIA。