

- 杨松琳:下一代LLM架构展望 | 潜空间
本次潜空间邀请了 MIT 计算机科学与人工智能实验室二年级博士生【杨松琳】,本次分享的主题是《下一代 LLM 架构展望》 💡关于【奇绩潜空间】: 奇绩潜空间是GenAI时代冲得最快的一批科研学者/从业者/创业者聚集的AI人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,如杨植麟、吕聘、闫俊杰等;邀请前沿科研学者分享最新的技术进展,如姚顺雨、蔡天乐等;希望可以为所有GenAI时代的创业者、从业者提供可借鉴、可复制的经验。 文字稿及笔记:奇绩社区内容精选 🎤本期嘉宾: 杨松琳, MIT 计算机科学与人工智能实验室二年级博士生。专注于线性注意力机制、机器学习与大语言模型交叉领域,聚焦高效序列建模的硬件感知算法设计。围绕线性变换、循环神经网络优化开展研究,,并取得多项研究成果,多篇论文被 ICLR 2025、NeurIPS 2024 等顶会收录。此外,她还开源了 flash-linear-attention 项目,助力领域发展。 ⏰时间轴: * 01:17 序列建模的背景与Transformer的局限性 * 02:50 为何需要新架构?数据扩展的瓶颈与效率问题 * 04:07 Token Mixer与Channel Mixer的核心概念 * 06:10 位置编码(如RoPE)的局限性及改进方向 * 07:49 上下文相关的位置编码(如Sigmoid Attention) * 10:32 线性注意力的分类与动态衰减机制 * 13:10 稀疏注意力(静态/动态)与混合注意力架构设计 * 15:54 在线学习(Test-Time Training)与强化学习的结合 * 17:04 稀疏注意力的硬件优化挑战与动态稀疏方案 * 22:49 混合注意力(层间/层内混合)与KV Cache的优化 * 25:54 Channel Mixing的潜力:MoE模型与动态权重调整 * 28:29 非Next Token Prediction的探索(Diffusion LM、多目标预测) * 29:27 Test-Time Scaling的垂直方向与隐式推理(Latent Reasoning) 访谈环节 * 32:24 线性注意力应该放在那一层?结论是靠直觉还是有理论支持? * 33:15 线性注意力发展的核心逻辑是怎样的? * 36:20 从Hardware-Native角度谈架构设计的原则 * 40:01 设计算法架构的过程中如何权衡硬件迭代与算法设计? * 44:31 Linear Attention火起来的的本质逻辑是什么? * 47:40 Next Token Prediction之外的架构创新有哪些方向? * 50:20 如何具体解释垂直方向的Test-Time Scaling? * 52:31 Token与Channel混合的探索是怎样的? * 54:40 对创业者的建议以及创业者如何应对模型架构的变化? * 56:31 对年轻研究者的方向建议 Q&A环节 1. 59:10 架构升级是否能带来如Transformer对CNN的效果飞跃? 2. 59:52 如何看待对RWKV“无限上下文”能力? 3. 1:00:51 有哪种方法可以支持长期记忆的实时更新? 4. 1:06:28 StripedHyena 2 这个架构的特色有哪些? 5. 1:07:38 混合的tension比 full attention 7 可能在长序列效果上要好很多,为什么? 6. 1:10:55 开发问答型的应用用哪种架构会更好? 7. 1:15:32 基于目前的架构还有哪些可以做的工作? 8. 1:22:20 哪些问题限制了模型的上下文?线性注意力是如何扩展这个上下文窗口的? 9. 1:29:33 Linear attention 比较容易出现过拟合的现象吗?如果有,应该怎样去应对? 10. 1:36:50 contact 转 KV cache 这种work能做规则注入吗? 🔈奇绩潜空间下期预告: 下一期潜空间的时间在3月22日,我们邀请的分享嘉宾是【周衔】,先进生成式物理引擎 Genesis 贡献人一作。多篇文章被NeurIPS 2024、CoRL 2024、ICML 2024等顶会接收收录。现卡内基梅隆大学机器人研究所博士毕业生,曾于新加坡南洋理工大学取得学士学位。对机器人技术、计算机视觉和世界模型学习有广泛的兴趣。目前的研究重点是构建用于机器人研究及其他领域的统一神经策略和数据引擎。本次潜空间周衔将带来《生成式仿真:为具身智能解决数据难题的新范式》的主题分享,欢迎报名收听。 欢迎关注奇绩,报名活动及加入听友群请添加小助手:
- 刘琦:多模态大模型与智能Agent的训练与实践:打造自动化驱动的智能化未来 | 潜空间
本次潜空间邀请了Reka创始人之一【刘琦】,本次分享的主题是《多模态大模型与智能Agent的训练与实践:打造自动化驱动的智能化未来》 💡关于【奇绩潜空间】: 奇绩潜空间是GenAI时代冲得最快的一批科研学者/从业者/创业者聚集的AI人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,如杨植麟、吕聘、闫俊杰等;邀请前沿科研学者分享最新的技术进展,如姚顺雨、蔡天乐等;希望可以为所有GenAI时代的创业者、从业者提供可借鉴、可复制的经验。 本期内容笔记:奇绩社区内容精选 🎤本期嘉宾: 刘琦是香港大学计算机科学系助理教授,Reka AI 联合创始人,曾经在新加坡国立大学读硕士,毕业后分别在微软亚洲研究院和微软剑桥研究院工作。之后,加入 Meta 的 AI 研究部门,主要方向是用神经网络分析图结构数据。后又返回学校读书,Phd毕业后进行创业。 ⏰时间轴: * 03:13 刘琦个人介绍与过往经历 * 08:00 年轻人在AI领域的创业机会有哪些? * 11:06 刘琦的Reka创业经历分享 * 13:55 文本大模型的演化及发展 * 18:58 多模态大模型的经典架构、训练方式以及具体实践 * 27:59 多模态Agent的四大方向:自动驾驶、机器人、计算机交互、动态数据分析 * 37:14 AI创业公司面临的机会与挑战 * 44:44 Reka发展中的经验教训:多模态方向早期布局重要性以及GPU供应链延误的代价 * 46:51 Reka团队文化与组织架构:分布式团队管理与自驱型人才的重要性 * 51:51 如何切入Agent落地的具体场景以及面临的阻碍有哪些? * 59:18 GPU资源分配策略:Post-Training VS Test-Time Scale Law * 1:03:46 2025年多模态Agent能力预测:自动驾驶与通用机器人的突破 * Q&A环节 1. 1:04:32 Reka目前的产品化路径是怎样的? 2. 1:09:04 技术产品、商业化、运营销售这三个当中哪个是真正的护城河? 3. 1:13:14 开源大模型的这个时代,同赛道的产品要从哪些维度去形成差异化以及从哪些标准去衡量差异化? 4. 1:17:04 VOA agent、 Embodied AI 在技术原理上有什么异同? 5. 1:18:54 如何在应用落地上用到免费而且高质量的数据?如何平衡专业领域人才与AI技术团队的合作? 6. 1:22:13 创始人应如何预判技术趋势,评估新兴方向的逻辑框架是什么? 7. 1:26:01大规模多模态数据的存储与管理如何降本增效?是否需分层存储? 8. 1:28:02创业公司选择工具增强模型(Tool-LLM)是否比端到端路线更实际?自动驾驶等场景是否应追求完全端到端? 9. 1:30:09市面多模态RAG方案中,哪家最适合工业品出口流程优化? 📢奇绩潜空间第6季预告: 关注奇绩的小伙伴,奇绩潜空间第六季活动开始报名,第一期活动时间为 3 月 1 日。 第六季我们邀请到 “妙鸭相机”创始人兼 CEO 张月光、MIT 计算机科学与人工智能实验室二年级博士杨松林、卡内基梅隆大学机器人研究所博士周衔、上海交通大学生成式人工智能研究组负责人刘鹏飞与大家交流经验。共同探索前沿 AI 科技与产品的边界突破:科研、模型、数据与应用开发的多维对话。 欢迎关注奇绩,报名活动及加入听友群请添加小助手:
- 极佳视界CEO黄冠:空间智能的未来——从感知到认知的4D突破|奇绩校友访谈
本次校友访谈邀请了极佳视界创始人兼CEO【黄冠】,本次分享的主题是《空间智能的未来——从感知到认知的4D突破》 🎤本期嘉宾: 黄冠是极佳视界创始人兼CEO,清华大学AI方向博士,拥有超过十年的AI技术和产业经验,拥有微软、三星、地平线等知名公司算法经历,拥有AI、自动驾驶等方向连续创业经验。 极佳视界成立于2023年,定位为一家空间智能公司,致力于将视频生成提升到4D世界模型,使AI大模型具备对4D空间理解、生成、常识和推理能力,进而实现4D空间中交互和行动。团队核心成员包括前阿里云总监、50篇顶会和超1万次引用的算法大牛、前Apollo仿真负责人、多个AI世界冠军的算法专家等人才。 ⏰时间轴: 1:30如何看待视觉领域,AI 技术的演进和未来发展趋势? 5:16如何定义空间智能? 7:14是否应该将4D 生成与理解放在一个模型架构下? 9:49通向通用智能,语言模型和世界模型,哪条路径更可行? 14:394D视频生成的核心挑战是什么? 18:17当前发展世界模型是否也面临数据层面的挑战,如何解决? 22:24从极佳的角度,如何看待提供数据和内容生成服务两条商业化路径? 30:08如何看待当前自动驾驶和具身智能领域对数据的需求? 32:59-极佳的目标是做4D世界模型,如何看待公司定位以及优劣势? 38:33极佳的商业化探索和实践 41:31关于4D 领域技术和商业化趋势,以及中美发展差异的思考 50:16从视频生成到空间智能,创业公司能够探索的领域有哪些以及需要哪些条件来支持? 56:18 极佳招人 欢迎关注奇绩,报名活动及加入听友群请添加小助手:
- Physics of LLM 作者「叶添」:解密大语言模型推理机制——超越人类的二级推理 | 潜空间
本次潜空间邀请了Meta 助理研究员以及Physics of LLM 作者【叶添】,本次分享的主题是《解密大语言模型推理机制——超越人类的二级推理》 💡关于【奇绩潜空间】: 奇绩潜空间是GenAI时代冲得最快的一批科研学者/从业者/创业者聚集的AI人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,如杨植麟、吕聘、闫俊杰等;邀请前沿科研学者分享最新的技术进展,如姚顺雨、蔡天乐等;希望可以为所有GenAI时代的创业者、从业者提供可借鉴、可复制的经验。 本期笔记以及PPT:奇绩社区内容精选 🎤本期嘉宾: 叶添是清华大学姚班,卡内基梅隆大学博士生,Physics of LM 2.1 和 2.2 作者,于 Meta 任助理研究员(Research Scientist Intern)。研究兴趣主要集中在大语言模型的推理机制。曾在顶级会议 NeurIPS 上发表研究论文。此外,曾两次进入中国数学奥林匹克竞赛国家集训队。 ⏰时间轴: 03:31-人工合成数据集IGSM效果和思路介绍 14:22-IGSM是如何生成的? 24:44-模型会犯错的原因、解决方案以及从中得到的启示 33:34-如何教会模型自己改正错误? 47:54-Q&A环节: * 47:54-大模型探索阶段的工作与未来方向 * 53:55-什么原因导致按照先简单后复杂的顺序训练模型有时效果不好? * 59:58-Physics of LLM在实际应用中使用了多少算力? * 1:08:46-如何定义推理能力? * 1:12:24-如何寻找没有出现在预训练语料里面的能力 * 1:18:19-解决数学问题的能力是否完全等价于推理能力? * 1:21:49-在预训练以及后训练阶段怎样提升模型推理能力? * 1:29:23-简单的结构化和依赖检索方法是否可行? * 1:40:44-如何让大模型理解复杂业务的SQL? * 1:46:28-为什么大模型很难评估自己是否犯错? 💡下期预告: 主题:多模态大模型与智能agent的训练与实践:打造自动化驱动的智能化未来 嘉宾:刘琦,香港大学计算机科学系助理教授,Reka AI联合创始人,领导Reka AI多模态大模型的训练与落地,英国牛津大学计算机科学博士,新加坡国立大学硕士。曾在Google DeepMind、Facebook AI Research和微软研究院工作,曾获福布斯亚洲“30岁以下30人”和AI2000人工智能全球最具影响力学者等奖项。 活动时间:1月18日 11:00-12:30 活动地点:北京线下/上海线下/线上均有场次 欢迎关注奇绩,报名活动及加入听友群请添加小助手:
- 季宇:谁困住了AI产业—大型机化的计算机形态与变革的可能性 | 潜空间
本次潜空间邀请了行云创始人兼CEO「季宇」,本次分享的主题是《谁困住了AI产业——大型机化的计算机形态与变革的可能性》 💡关于「奇绩潜空间」: 奇绩潜空间是GenAI时代冲得最快的一批科研学者/从业者/创业者聚集的AI人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,如杨植麟、吕聘、闫俊杰等;邀请前沿科研学者分享最新的技术进展,如姚顺雨、蔡天乐等;希望可以为所有GenAI时代的创业者、从业者提供可借鉴、可复制的经验。 本期文字稿:奇绩社区内容精选 💡本期嘉宾: 季宇是行云创始人兼CEO,清华大学计算机科学与技术系博士,曾在华为担任海思昇腾芯片编译器专家,负责多个昇腾编译器项目,并在 AI 编译器领域和处理器微架构领域进行挑战性问题攻关。季宇的主要研究领域包括神经网络加速器、编译器和面向系统优化的机器学习。 行云成立于2023年8月,其核心团队汇聚了来自清华大学及全球顶尖芯片公司的精英人才,致力于研发下一代针对大模型推理场景的超大显存 GPU 芯片,目标是通过异构计算和白盒硬件形态革命性地重塑大模型计算系统,推动大模型走向更高质量和更低成本,于 2024 年连续完成总额数亿元的天使轮及天使+轮融资。 ⏰时间轴: 02:32人工智能算法发展的历史 04:32人工智能的发展经历了从L1到L3的逐步提升,但是要实现到L4的提升还需要新的方法或突破 15:03从计算机产业变迁来看大模型落地困局及解决方案 46:03GPU未来的创新路径是什么? 50:18多模态硬件设计面临的挑战与机遇 1:13:12Q&A环节 * 1:13:18如何通过构建系统实现硬件多种的兼容性? * 1:16:26行云为什么值得加入,行云的优势与面临的挑战有哪些? * 1:19:17下一代AI芯片能否解决延迟和并发的问题? * 1:21:10通过突破硬件和软件的技术瓶颈来实现享受消费级硬件顶配超体验 * 1:23:10大规模超算系统中如何实现高效互联以及是否需要依赖专有网络来扩展大模型能力? * 1:28:42端侧设备(如车机、笔电、手机) 是否能承载大规模模型? * 1:30:38行云未来的产品矩阵规划是什么? 欢迎关注奇绩,报名活动及加入听友群请添加小助手:
- 鱼哲:除 AI Infra 外,还有什么重要的事|潜空间
本次潜空间邀请了「Lepton AI 鱼哲」, 本次分享的主题是《除 AI Infra 外,还有什么重要的事》。 💡关于「奇绩潜空间」: 奇绩潜空间是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,如杨植麟、吕骋、闫俊杰等;邀请前沿科研学者分享最新技术进展,如姚顺雨、蔡天乐等;希望可以为所有 GenAI 时代的创业者、从业者提供可借鉴、可复制的经验。 本期文字稿:奇绩社区内容精选 💡本期嘉宾: 鱼哲是 Lepton AI 产品负责人,曾在阿里云担任高性能 AI 平台产品负责人,专注于 AI 在多个行业的落地及应用。 Lepton AI 是一个云原生的人工智能平台,致力于开发先进的 AI 能力,简化 AI 应用的构建过程,并降低 AI 开发门槛。目前公司提供了一系列工具和服务,如 Python SDK 和云计算平台,以降低 AI 应用开发的复杂性,其产品预览展示了其在语音识别、艺术化二维码生成、幻觉艺术创作等方面的能力,并且支持与 Hugging Face 模型库的集成。公司致力于解决 AI 基础设施层的问题,提供高性能推理引擎和多云平台,以帮助开发者更容易和经济地创建、部署和扩展 AI 应用。 ⏰时间轴: 00:47 AI 的 Granularity(粒度) 和 Accountability(问责) 11:05 用 Granularity 和 Accountability 四象限来分析各AI应用,如perplexity、c.ai等 23:43 除了Infra外,还有什么重要的事? 34:11 为什么做Lepton AI? 40:46 聊聊这一年 AI Infra 创业的感受 41:45 AI Infra 的核心痛点是什么? 01:06:45 数据创业的机会 01:12:42 产品经理:理解市场、跨团队协作、交付商业化结果 01:16:58 AI Infra 的创业当中遇到哪些有意思的伪需求? 01:20:21 中美两边的 Infra ToB 的商业模式和创业环境的区别 01:24:24 什么是 AI infra 和应用都喜欢的高质量数据? 欢迎关注奇绩,报名活动及加入听友群添加小助手:
- 袁进辉:AI Infra 创业十年得与失 | 潜空间
本次潜空间邀请了「袁进辉」, 他分享了关于他分别介绍了创业经历、相关技术研究、分布式编程以及 Infra 创业等 AI 领域多方面内容。 本期嘉宾: 袁进辉是硅基流动(SiliconFlow)创始人兼 CEO ,曾任微软亚洲研究院主管研究员,获得微软亚洲研究院院长特别奖。此外,他还是一位连续创业者,曾在 2017 年创立一流科技(OneFlow),在 2023 年加入王慧文组建的大模型创业公司光年之外,成为联合创始人。 硅基流动是一家做推理加速优化的 AI Infra 公司,致力于打造规模化、标准化、高效能 AI Infra 平台,提供高效能、低成本的多品类 AI 模型服务,助力开发者和企业聚焦产品创新,目前已完成近亿元天使+轮融资。 时间轴 01:06 分享十年创业经历,涉及不同创业伙伴与工作转型 03:12 OneFlow的创业历程与早期对大模型框架的布局及影响 11:43 从2014年研究出发谈神经网络结构学习、工程积累及相关核心理念 28:18 技术框架竞争中的思路及ChatGPT带来的行业巨变 32:16 大模型结构收敛后的影响与不同技术路线的发展 36:22 非典型创业经历:实验室运作、技术优先、挑战大厂等 40:45 Infra创业的理由、推理部署为中心的原因及相关项目的商业化成果 56:15 AI相关场景、竞争、技术融合及芯片发展的讨论 01:11:39 Q&A 本期文字稿:奇绩社区内容精选 关于「奇绩潜空间」: 奇绩潜空间是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,如杨植麟、吕骋、闫俊杰等;邀请前沿科研学者分享最新技术进展,如姚顺雨、蔡天乐等;希望可以为所有 GenAI 时代的创业者、从业者提供可借鉴、可复制的经验。欢迎关注奇绩,报名添加小助手。 活动报名 &听友群,欢迎扫码加小助手:
- 专访中国国际大学生创新大赛获奖者:共绩科技创始人付智
本次我们邀请了「共绩科技」的创始人兼 CEO 付智来到访谈间,在2024中国国际大学生创新大赛上,付智以 930 分的高分荣获大赛亚军。 🎙️本期嘉宾: 付智: 从科研开启创业时,共绩科技的创始人兼 CEO 付智还在清华读博士。他的创业经历在奇绩加速和投资的众多在校创业项目里非常典型:科研背景、00 后创业者、AI 技术驱动、服务国家战略。 共绩科技打造的“算了么”闲时算力共享平台旨在为科研学者、开发者等创新个体,以及科研机构、AI 应用企业等对科研工程计算和模型推理计算有需求的主体提供弹性算力。 在付智获奖的第一时间,我们对他进行了专访,希望分享他关于为什么创业、如何度过早期艰难时刻的故事。我们聊了这些问题: ⏰时间轴 01:12 大赛简要回顾 02:01 共享算力的逻辑 03:33 创业的至暗时刻 05:00“算了么”项目的创新点 08:55 对大学生创业者的建议 13:19 比较遗憾的事情 15:22 如何面对新的挑战? 17:23 创业路上最感谢的是? 18:19专业与创业关联性高吗? 🙋活动报名 & 听友群,欢迎扫码加小助手:
- 陈贝迪:高效长文本生成——算法、系统与硬件协同设计|潜空间
本次潜空间邀请了「陈贝迪 Betty Chen」,她分享了算法、系统以及硬件协同设计(co-design)的一些性质,以提升长序列生成的效率(for efficient long sequence generation)。 💡关于「奇绩潜空间」: 我们找到了 GenAI 时代冲得最快的一批创业者 / Researchers ,如月之暗面(Moonshot AI)创始人杨植麟、AI 硬件 Rabbit-R1 创始人吕骋等,来分享自己的亲身经历和见解,希望可以为所有 GenAI 时代的创业者、从业者提供可借鉴、可复制的经验。 本期文字稿:奇绩社区内容精选 🎙️本期嘉宾: 陈贝迪 Betty Chen 卡内基梅隆大学助理教授,前Meta研究员 研究方向:包括大规模的机器学习,system optimization优化,以及如何通过MLSys来提升efficiency ⏰时间轴 01:57 算法、系统与硬件协同设计 03:08 长序列语言模型的挑战 07:57 KV缓存的瓶颈 08:53 设计高效算法应对KV缓存的问题 12:13 静态KV压缩的探索 27:00 Dilemma的解法之一:GPU和CPU的Co-design 39:35 总结和展望 47:20 Q&A 👉【奇绩潜空间】报名通道奇绩潜空间是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,如杨植麟、吕骋、闫俊杰等,邀请前沿科研学者分享最新技术进展,如姚顺雨、蔡天乐等。欢迎关注奇绩,报名添加小助手 🙋活动报名 & 听友群,欢迎扫码加小助手:
- 尤洋:开源视频生成模型 Open-Sora 的深度解读与思考|潜空间
本次潜空间邀请了潞晨科技创始人兼董事长尤洋,他将带来对 Open-Sora 的解读与思考。「Open-Sora」是潞晨科技 Colossal-AI 团队研发并完全开源的视频生成模型。 💡关于「奇绩潜空间」: 我们找到了 GenAI 时代冲得最快的一批创业者 / Researchers ,如月之暗面(Moonshot AI)创始人杨植麟、AI 硬件 Rabbit-R1 创始人吕骋等,来分享自己的亲身经历和见解,希望可以为所有 GenAI 时代的创业者、从业者提供可借鉴、可复制的经验。 本期文字稿:奇绩社区内容精选 🎙️本期嘉宾: 尤洋: 清华大学硕士,加州伯克利大学博士,新加坡国立大学计算机系的校长青年教授;曾任职于谷歌、微软、英伟达、英特尔、IBM 等国际知名厂商;曾创造 ImageNet、 BERT、AlphaFold、ViT 训练速度的世界纪录。 Open-Sora 是潞晨科技 Colossal-AI 在今年 3 月发布开源视频生成模型 ,在 GitHub 上已经获得 1.9 万个星标用户。 开源项目链接:github.com ⏰时间轴 01:06 尤洋个人技术背景 00:04:19 回顾OpenAI—Sora的业界影响 00:06:08Open—Sora的设计初衷 00:07:51 Open—Sora的模型架构 00:12:31 Open—Sora的训练流程 00:19:40 训练所用的数据集 00:28:57 未来的规划 00:33:19问题1:Open-Sora为迭代做出了哪些调整? 00:34:40问题2:Open-Sora未能公开给大众的原因是什么? 00:36:18问题3:为什么视频模型的参数小于文本模型? 00:39:20问题4:Open-Sora更偏科研还是商业? 00:46:53问题5:价格战是否会挤占Open-Sora的生成空间? 00:54:40问题6:如何看待出海这部分的业务? 00:57:43 问题7:个人怎样看待科研和创业的关系? 01:01:07问题8:创业过程中最艰难的时刻是什么? 01:03:32问题9:过去三年内读过的最有意思的书? 👉【奇绩潜空间】报名通道奇绩潜空间是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,如杨植麟、吕骋、闫俊杰等,邀请前沿科研学者分享最新技术进展,如姚顺雨、蔡天乐等。欢迎关注奇绩,报名……添加小助手 🙋活动报名 & 听友群,欢迎扫码加小助手:
- 刘子鸣:KAN——AI+Science领域潜在“语言”模型|潜空间
本次邀请了我们邀请到了KAN的网络论文作者刘子鸣,关于KAN 的论文也引起业内广泛关注,目前其为MIT PHD第四年,导师为著名的宇宙学家Max Tegmark,今天他将带来KAN网络算法的相关内容,包括其背景、原理、应用和未来发展等方面。 💡关于「奇绩潜空间」: 我们找到了 GenAI 时代冲得最快的一批创业者 / Researchers ,如月之暗面(Moonshot AI)创始人杨植麟、AI 硬件 Rabbit-R1 创始人吕骋等,来分享自己的亲身经历和见解,希望可以为所有 GenAI 时代的创业者、从业者提供可借鉴、可复制的经验。 过去分享文字稿:奇绩社区内容精选 🎙️本期嘉宾: 刘子鸣: MIT PHD第四年,导师为著名的宇宙学家Max Tegmark 研究兴趣: AI 与物理学这两个领域的交叉,分为三个大的方向,一个是 Plysics of AI,像理解物理一样去理解 AI ; 第二个是 Physics for AI,如何用一些自然物理中的规律和0模型来启发我们设计更好的AI; 第三个方向是 AI for physics,就是我们怎样用 AI 物理学家来帮助人类物理学家进行科学发现。 ⏰时间轴 02:35 KAN(Kolmogorov-Arnold)是什么,其底层数学逻辑+优势是什么? 07:37 对比MLP,KAN的底层差异与结构差异在哪? 10:45 KAN在科学发展中的可解释性在哪? 12:24 颇有争议,为什么说KAN是AI+Science领域潜在"语言”模型? 24:24 回顾历史,符号主义与连接主义的来回摇摆,KAN属于何种? 28:03 哲学角度思考,为什么说KAN与 MLP 类似还原论与整体论的关系? 37:01 人们都说scaling law是大模型领域的牛顿第一定律,从你的科研背景上会如何理解Scalinglaw,有什么最新的认知? 👉【奇绩潜空间】报名通道 奇绩潜空间是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,如杨植麟、吕骋、闫俊杰等,邀请前沿科研学者分享最新技术进展,如姚顺雨、蔡天乐等。欢迎关注奇绩,报名添加小助手 🙋活动报名 & 听友群,欢迎扫码加小助手:
- 吴翼:用大模型玩游戏——狼人杀AI|潜空间
吴翼从清华大学交叉信息研究院教授到边塞科技的创始人兼CEO。本期播客,吴教授将分享——让大模型玩游戏,即狼人杀AI。 💡关于「奇绩潜空间」: 我们找到了 GenAI 时代冲得最快的一批创业者 / Researchers ,如月之暗面(Moonshot AI)创始人杨植麟、AI 硬件 Rabbit-R1 创始人吕骋等,来分享自己的亲身经历和见解,希望可以为所有 GenAI 时代的创业者、从业者提供可借鉴、可复制的经验。 过去分享文字稿:奇绩社区内容精选 🎙️本期嘉宾: 吴翼 :现任清华大学交叉信息研究院助理教授,同时于上海期智研究院做研究,主要研究方向包括多智能体强化学习,人机交互,机器人学习,自然语言理解与交互,机器学习系统等。目前在做AI创业,是边塞科技创始人&CEO。 吴翼在中学期间参加信息学奥赛,高一暑假保送清华,后来担任国家信息奥赛集训队队长。 在清华上学时代表学校征战ACM比赛;在伯克利做研究时师从Stuart Russell和Peter Abbiel,并作为早期的华人员工加入OpenAI。 ⏰时间轴 02:37 agent的概念是什么,强化学习agent和大模型agent的异同? 13:21 狼人杀有什么挑战性与难点,为何需要用大模型+强化学习去研究狼人杀,大模型的不足之处在哪? 17:18 做狼人杀游戏,在技术上要做哪几件事? 22:42 案例一:训练词频的影响下,如何调整first night AI的随机击杀倾向? 25:11 案例二:alignment 和 safety的限制下,如何训练AI选择optimal strategy? 36:06 从合作到竞争,为什么最后选择狼人杀游戏? 38:55 除了IO与大模型语言的一些结合点,RL与大模型语言有哪些比较好的结合点,实际中有哪些有趣的应用场景? 43:16 站在学术前沿角度,强化学习如今面临的一些瓶颈与挑战有哪些? 46:34 对GPT-5未来有什么推断,未来可能会有哪些进展? 47:14 如何更好地收集数据,不同模态的数据如何做融合与整合? 49:05 如何看待近期大火的机器人Figure?机器人有什么前沿进展? 50:59 怎么看机器人的进展速度? 👉【奇绩潜空间】报名通道 奇绩潜空间是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,如杨植麟、吕骋、闫俊杰等,邀请前沿科研学者分享最新技术进展,如姚顺雨、蔡天乐等。欢迎关注奇绩,报名……添加小助手 🙋活动报名 & 听友群,欢迎扫码加小助手:
- Luma AI 首席科学家宋佳铭:从视频数据中理解 3D|潜空间
作为 Luma AI 首席科学家和最早扩散模型加速算法的创建者,「宋佳铭 Jiaming Song 」在奇绩潜空间中分享了他对于微调视频模型以实现 4D 内容生成的探索思路,并通过讲解 Luma AI 在视频生成模型 DreamMachine 上的探索,说明了模型可以从视频数据中学到大量关键的三维特性。 💡关于「奇绩潜空间」: 我们找到了 GenAI 时代冲得最快的一批创业者 / Researchers ,如月之暗面(Moonshot AI)创始人杨植麟、AI 硬件 Rabbit-R1 创始人吕骋等,来分享自己的亲身经历和见解,希望可以为所有 GenAI 时代的创业者、从业者提供可借鉴、可复制的经验。 过去分享文字稿:奇绩社区内容精选 🎙️本期嘉宾: 宋佳铭 : Luma AI 首席科学家,斯坦福大学计算机科学博士、博士后。曾任职英伟达(DIR)小组科学家 ,创建了最早的扩散模型加速算法,该算法广泛用于最近的生成式 AI 系统,包括 DALL-E 2、Imagen、Stable Diffusion 和 ERNIE-ViLG 2.0。 ⏰时间轴 00:25 从 Diffusion 诞生到现在,视频生成领域有哪些重要的里程碑,这些里程碑发生的背后逻辑或动机是什么? 04:54 目前主流的研究者在进行视频理解和视频生成时,分别采用了什么样的技术路径? 05:23 从人和自然的角度,理解和生成是如何被分开的?其背后的机制是否相同? 06:36 在理解层面,多模态模型有 Late Fusion 和 Early Fusion 两条路径。你怎么看这两件事情在不同的场景下的区别,它们的优势和劣势是什么? 07:49 无论是 Early Fusion 还是目前使用的 DIT,大家都在期待 Auto-regressive 和 Diffusion 能更好地结合,你认为接下来的发展趋势可能是什么样的? 09:15 你当时做 diffusion 加速的时候,灵感来源于什么? 11:46 关于 4D 数据的收集,目前有用到模拟器合成数据吗?在自动驾驶领域,这类数据的重要性与其他领域有何不同? 14:17 DIT 的 scale 大概什么时候能出现?DIT 的参数大概能够达到一个什么范围? 16:21 明年下半年,如果要生成一段1080P、30秒的视频,所需的时间和成本可能是怎样的?那时的视频质量能否达到完全逼真的程度? 👉本周六 线下潜空间预告 主题:多模态大模型:以视觉为中心的探索 嘉宾:童晟邦,纽约大学计算机科学院博士,师从 Yann LeCun 教授和 Saining Xie 教授。他曾在伯克利人工智能实验室(BAIR)担任研究员,目前正在 Meta 暑期实习,近期获得了 OpenAI 超对齐奖学金 活动时间:北京时间 8月24日 10:00-13:00 活动地点:北京线下 / 上海线下 / 线上 均有场次 🙋活动报名 & 听友群,欢迎扫码加小助手:
- 对话大模型推理优化(美杜莎)论文作者蔡天乐|潜空间
💡关于「奇绩潜空间」: 我们找到了 GenAI 时代冲得最快的一批创业者 / Researchers ,让他们来分享自己的亲身经历和见解,希望可以为所有 GenAI 时代的创业者、从业者提供可借鉴、可复制的经验。 线下参与潜空间方式:扫描结尾二维码。 🎙️本期嘉宾: 蔡天乐:普林斯顿“小天才” ,美杜莎推理优化论文作者,曾任职谷歌、TogetherAi,MyShell模型核心贡献者、创业者、天使投资人。 毛圣博 Peter:奇绩创坛合伙人,Peter 的风险投资生涯始于启明创投,后来是熊猫资本联合创始人,累计14年风险投资经验,投资过旷视、Insta360、摩拜、七牛云等独角兽公司。 ⏰时间轴 01:38 在科研或者在工业界的经历上最有趣的洞察 05:48 怎么提升大模型推理的效率? 07:21 底层硬件更新周期 & 模型的更新周期的衔接 10:57 在模型和底层硬件愈加同质化的当下,如何做到推理层面的差异化 13:03 影响推理速度/效率的瓶颈 17:29 如何看待大模型市场的价格战争?厂商在赔钱赚吆喝吗? 22:30 关于天乐最新的论文:Medusa 美杜莎 30:52 除了Medusa美杜莎,还有哪些前沿的算法来优化推理效率/速度 32:47 《Large Language Models as Tool Makers》:让模型自己创建工具 36:10 端侧模型:降低成本、保护隐私 37:39 大模型数学比较差的原因? 40:46 超长上下文对推理的影响 43:01 大模型创业的竞争格局 📖本期提到的论文: * Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads * Large Language Models as Tool Makers 👉本周六 线下潜空间预告 主题:多模态大模型:以视觉为中心的探索 嘉宾:童晟邦,纽约大学计算机科学院博士,师从 Yann LeCun 教授和 Saining Xie 教授。他曾在伯克利人工智能实验室(BAIR)担任研究员,目前正在 Meta 暑期实习,近期获得了 OpenAI 超对齐奖学金 活动时间:北京时间 8月24日 10:00-13:00 活动地点:北京线下 / 上海线下 / 线上 均有场次 🙋活动报名及听友群,欢迎扫码加小助手:
- 普林斯顿计算机博士姚顺雨:Agent理论挖掘与未来判断|潜空间
智能体(Agent)与真实世界互动的前沿研究者姚顺雨(清华姚班本科、普林斯顿大学博士),在【奇绩潜空间】与奇绩合伙人曹勖文(Xuwen)一起,分享了 ReAct Agent 的研究背景与动机,Agent 在大模型能力上的推理和决策优势,分析了 Agent 技术的挑战和未来发展,还介绍了自己的 SWE-Agent 研究项目等。姚顺雨的分享不仅涵盖了 Agent 技术的理论基础,还深入探讨了 Agent 商业化落地路径。这些内容能够帮助到 Agent 创业者找到创新机会,实现商业落地。