
- 生成式游戏 (上)
今天来聊聊生成式游戏(Generative Games)。最近AI在交互式内容生成方向的进展给这个方向带来了更多的可能性。和将AI应用于游戏开发降本增效的Game+AI不同,生成式游戏基于生成式AI可以带来一种AI原生的游戏体验,包括实时、在线的游戏场景,个性化、动态的游戏剧情,以及自动、自主演化的角色行为。 02:05 生成式游戏的三个例子 04:18 生成式游戏的定义 06:27 生成式AI在游戏中应用的四个阶段 07:48 阶段一:概念验证期 (2025-2019) 10:48 阶段二:语言控制生成期(2020-2022) 13:37 阶段三:大模型和多模态增强期(2023-2024上半年) 17:16 阶段四:效率提升和创新期(2024下半年) 参考资料: Generative games: positioning, progress, and prospects.
- 从DeepMind的Alpha系列看OpenAI的o系列
第一期播客里提到IIya把AlphaGo的思想应用到o系列的研发中。大模型的预训练、后训练和推断很好地对应了AlphaGo的三个阶段:基于人类已有数据的离线模仿学习、对策略函数增强和估值函数训练的离线强化学习、基于蒙特卡洛树搜索的在线推断。这一期我们从技术的角度深入讨论这一点,从DeepMind的Alpha系列来理解o系列的发展。 00:57 大模型三阶段 vs AlphaGo三阶段 01:05 o系列技术分析 03:08 基于提示工程(Prompting)的大模型推理 04:59 基于监督学习的大模型推理 06:36 基于强化学习的大模型推理 09:33 突破人类记录的{Q,A}数据 10:02 系统1+X -> 系统2+X 11:29 连续思维链 12:45 Bitter Lesson: Data is all you need 16:40 o系列面临的挑战 17:59 o系列泛化的挑战一:奖励函数和行为空间的适配 -> 强化微调 25:08 o系列泛化的挑战二:无完美模拟器场景下的环境状态预测 -> 世界模型建模 29:50 从Alpha系列发展看o系列 30:55 AlphaGo Zero vs o1: 重视后训练+在训练阶段搜索 32:30 o3的技术分析 34:02 AlphaZero: 多任务和跨领域泛化,MuZero:无完美模拟器场景下的泛化 35:06 MuZero对o系列挑战二的启发 35:49 Alpha系列对o系列挑战一的启发 参考资料: [OpenAI o1研究员Hyung Won Chung的报告]: - "Large Language Models . " Talk,2023.10.06. - “Don’t teach, incentivize . " Talk,2024.09.19. [IIya介绍SelfPlay的报告]: "Meta Learning & Self Play." 2018. [连续思维链]: -Language is primarily a tool for communicationrather than thought. Nature, 2024. -Training Large Language Models to Reasonin a Continuous Latent Space.
- 从OpenAI看AI的发展:从GPT-1/2/3、ChatGPT、Sora、GPT-4o到o1/3
从GPT-1/2/3、ChatGPT、Sora、GPT-4o到o1/3,OpenAI持续地引领AI技术方向,一次次展示了技术可能达到的程度,从而给行业以信心。ChatGPT上线两周年、2024年终之际,以这些模型为线索,和大家一起回顾最近几年AI的发展。 01:05(一)大模型:从“专用”到“通用” 01:38 “专用AI”:图灵测试 04:25 “通用AI”:任务的统一 05:37 1. GPT-1/2/3:预训练和语言模型 (2018-2020) 06:43 下一个词元预测为什么可以获得“通用”能力? 09:18 从GPT-1到GPT-3:更大的模型容量+更多的预训练数据 = 更强的能力 10:35 2. ChatGPT:后训练和对话应用 (2022.11) 10:45 为什么需要后训练? 13:23 大模型训练的三个阶段 14:45 3. Sora:视频生成和世界模拟器(2024.02) 17:56 Sora: 通向AGI的视觉路线 21:11 视频生成 --》 交互式内容生成 --》 世界模型 23:01(二)AIAgent:从“工具”到“工具的使用者” 24:24 beyond内容理解和生成:规划任务+使用工具 25:31 从助手CoPilot到工具使用者AI Agent 27:38 1. GPT-4o:端到端多模态和自然语言界面 (2024.05) 28:13 GPT-4o展现的能力和可能的实现方法 29:44 设备自动控制Agent(DeviseUse)的发展 31:39 特点1:自然交互 34:21 特点2:自动化-越来越高的抽象级别 36:18 特点3:定制化-从软件1.0到软件2.0 38:38 Devise Use的发展阶段和对应技术 41:39 Devise Use的实现形式:模型-系统-规则 45:17 2. o1/3:强化学习和系统二推理 (2024.09/12) 45:27 OpenAI“双十二”:大模型推理和AI Agent 49:00 实现大模型推理的三种方式 49:42 监督学习vs强化学习:过程奖励的重要性 55:47 o1的复现工作总结(截止11月底) 58:30 IIya Sutskever:AlexNet、AlphaGo、GPT系列、Sora、o系列 1:01:30 OpenAI的启发:领先的认知+始终如一的坚持