0:00 Anthropic提出了一种将数据与人工智能聊天机器人连接的新方法
1:15 Inflection首席执行官表示不再尝试制作下一代AI模型
2:17 中式“霸总”迷倒老外背后,AI短剧翻译悄悄成省钱神助攻
3:31 空间智能新进展:教机器人组装宜家家具,首次实现操作步骤与真实视频对齐 | NeurIPS
4:44 亚马逊被曝启动“登月”计划:目标部署 10 万颗二代 AI 自研芯片,减少对英伟达依赖
5:40 IMAX 开启 AI 翻译 / 配音新时代:支持 140 种语言,打破语言壁垒、开启全球观影新体验
6:48 AI 音频领域的“瑞士军刀”:英伟达推出 Fugatto,音乐制作新神器
7:48 大模型创业太累大牛逃回大厂:融资 1 亿美金捉襟见肘,没日没夜加班胖了 30 斤
8:44 超越 GPT-4o:开源科研模型 OpenScholar 登场,4500 万篇论文检索增强生成回答
9:56 端侧智谱清言即将正式上线:基于英特尔酷睿 Ultra 芯片优化,提供本地处理“隐私模式”
文字版
#Anthropic日前发布了名为Model Context Protocol(MCP)的开源标准,旨在解决AI助手与数据源连接的问题。该协议允许任何AI模型从业务工具、软件及内容库中获取数据,打破信息孤岛限制。开发者可以通过MCP服务器暴露数据,并构建连接这些服务器的MCP客户端应用。目前Block和Apollo等公司已将MCP整合到其系统中,多家开发工具公司也在积极引入MCP支持。Anthropic为企业用户提供了Google Drive、Slack等系统的预构建MCP服务器,并计划推出可服务整个组织的生产级MCP服务器工具包。然而,该标准仍面临来自OpenAI等竞争对手的挑战,其市场接受度和实际性能表现还有待验证。
#曾经声称其AI模型可以超越OpenAI、Meta和Google的Inflection AI,如今在新任CEO Sean White的带领下发生重大战略转向。在微软以6.5亿美元收购其大部分员工和技术授权后,Inflection AI宣布放技巨头在前沿AI模型研发领域的竞争,转而专注于企业服务市场。为加强企业服务能力,公司近两个月内收购了三家AI初创企业,包括专注于邮箱管理的Jelled.AI、数据分析工具提供商BoostKPI以及欧洲自动化咨询公司Boundaryless。White表示,现有AI模型足以满足大多数企业需求,公司将提供包括本地部署在内的差异化服务。值得注意的是,美国联邦贸易委员会正在调查微软此次收购交易是否影响市场竞争。
#近期,国产短剧出海市场热度骤增,译制剧成为主流。台词翻译成本高昂成为平台痛点。小影科技推出AI短剧翻译模型,可为平台节省约90%人力成本。该模型通过声音提取引擎算法解决前后文语义关联问题,并建立短剧术语词库提高翻译准确度。目前,AI短剧台词翻译已支持多语种,满足上下文关联、语意准确等要求,成本仅为人工翻译的10%。
小影科技创始人韩晟表示,公司专注于细分市场,不亲自研发大模型,而是连接用户需求与技术。他认为,中小企业应挖掘用户需求,基于新技术开发产品,并关注各种大模型的发展。
短剧出海市场前景广阔,TikTok for Business预估2024年海外短剧市场规模已达数亿美元,月均用户2000至4000万人。未来规模有望增长至百亿量级,月均用户预计达2至3亿人。
#斯坦福大学研究团队开发了一个名为"IKEA Video Manuals"的大型多模态数据集,旨在教导机器人组装宜家家具。该数据集涵盖6类36种宜家家具,包含3D模型、安装说明书和实际组装视频。研究者将组装过程细分为1120个子步骤,实现了操作指令与真实视频的精确对齐。
数据集采用了来自90多个不同环境的真实视频,包括室内外场景和各种光照条件,为AI系统提供了丰富的挑战。研究团队还开发了一套标注系统,解决了遮挡、相似部件识别等问题。
基于该数据集,团队设计了多个任务评估AI系统在家具组装和空间推理方面的能力,包括分割、姿态估计和视频目标追踪等。实验结果揭示了当前AI模型在视频理解和空间推理方面的局限性。
该项目由斯坦福大学助理教授吴佳俊指导,计算机科学硕士生刘雨浓为第一作者。
#亚马逊正在推进一项代号为"登月"的计划,旨在减少对英伟达AI芯片的依赖。该计划的目标是部署10万颗第二代自研AI芯片Trainium2。亚马逊在得克萨斯州奥斯汀设立了专门的工程实验室,由核心芯片设计工程师Rami Sinno领导团队,致力于改进电路板和冷却系统,以优化未来AI工作负载。
Trainium2芯片相比上一代产品性能提升四倍,内存容量增加三倍,在能效和成本方面也有显著优势。亚马逊计划在今年年底前完成测试和交付。尽管亚马逊雄心勃勃,但分析师认为短期内不会对英伟达的市场领导地位构成威胁。英伟达目前仍是全球AI用GPU生产的主要供应商。
#IMAX携手迪拜人工智能初创公司Camb.AI,推出革命性AI语言翻译技术,支持140种语言。这项技术将首先应用于IMAX原创内容和纪录片的翻译。Camb.AI的DubStudio平台能快速高效地提供高质量翻译,同时保留演员原始情感表达。
该技术采用参数更少、更专注的模型,确保翻译精准度。核心技术包括BOLI翻译模型和MARS语音模拟系统,前者保留语言细微差别,后者完美还原演员情感。系统仅有20-30秒的延迟,符合标准广播要求。
IMAX影院全球总裁马克·韦尔顿表示,这项技术将促进全球优质娱乐资源共享,让更多人享受IMAX顶级观影体验。它打破语言壁垒,实现全球同步上映,为语言服务欠缺地区提供IMAX观影机会,同时为独立电影提供经济高效的本地化方案。
#英伟达推出了名为Fugatto的音乐生成AI模型,被誉为声音领域的"瑞士军刀"。这款工具能创作音乐、修改声音,灵活混合各种音乐、人声和音效,甚至创造出前所未有的声音。用户只需输入文字描述或插入音频,Fugatto就能生成相应的音乐片段、音效,甚至根据描述改变人声的口音和情感。例如,它可以根据"会喵喵叫的小号"或"创作一首包含萨克斯管嚎叫、狗吠声和电子音乐的曲子"等提示词创作音乐。Fugatto还能生成独特的声音效果,如模拟巨型智能机器苏醒的声音。对音乐艺术家而言,Fugatto可以分离歌曲中的主唱,添加乐器,甚至将钢琴声替换成歌剧演唱,实现音乐旋律的改编。
#大模型创业领域再现大牛回归大厂现象。曾参与谷歌PaLM、Bard等项目的Yi Tay,在创业一年半后选择重返谷歌DeepMind。他表示,尽管公司筹集了超过1亿美元资金,但对不到15人的团队来说仍然捉襟见肘。创业期间,Yi Tay学到了许多关于基础设施和大模型训练的知识,但也面临诸多挑战。公司旗舰模型Reka Core曾在性能评测中超越GPT4早期版本,但资金、算力和人力的不足最终成为发展瓶颈。个人层面,高强度工作导致Yi Tay体重增加15公斤,身心健康受到影响。此次回归谷歌,他将以高级研究员身份继续探索大模型相关研究。
#华盛顿大学和艾伦人工智能研究所联手推出了名为OpenScholar的开源科研模型。该模型能够在几秒钟内检索4500万篇论文,并生成高质量的回答。在专家评估中,72%的情况下OpenScholar的输出结果超越了人类。与GPT4o相比,OpenScholar在搜索可靠性、信息覆盖率和实用性等方面表现更优。
OpenScholar系统包括大规模数据存储、专业检索器和重排序器、8B参数语言模型以及迭代自我反馈生成机制。它是首个从数据到模型检查点全部开源的科研助手模型,运营成本比同类系统低100倍,对资金有限的研究机构极具吸引力。
目前,OpenScholar仍存在一些局限性,如可能引用不具代表性的论文、生成无参考文献支持的回答,以及受限于付费墙论文的访问。开发团队表示将继续优化模型,纳入更多论文并升级检索算法。
#智谱与英特尔联手打造的端侧智谱清言将正式上线。这款基于英特尔酷睿 Ultra 芯片优化的 AI 助手,具备离线运行能力,可在无网络环境下完成 AI 对话、长文档分析和知识库问答等复杂任务。端侧智谱清言提供本地处理的“隐私模式”,有效保障用户数据安全。结合云端能力,它还支持智能体搭建、AI 识图画图和高效 AI 搜索等功能。
此外,智谱发布了 CodeGeeX 智能编程助手 AIPC 版,支持 Python、Java、C++ 等多种主流编程语言,并与 VS Code、IntelliJ IDEA 等主流集成开发环境兼容。该助手以低功耗高性能完成 AI 任务,为程序员提供便利。
英特尔、智谱和机械革命三方联合推出了 CODE AI 程序员本,预装智谱 CodeGeeX NANO,利用内置的酷睿 Ultra 处理器实现完全基于本地算力的运行。