【长途巴士25】deepseek对自我养育的启示，拒绝虚假的密集奖励

大家好~本期我们讨论了deepseek带给我们的变化，模型与人类认知的发展，大模型的迭代与人对学习的认识存在着相似的演化过程，从对大模型的演化中也可以得到对自我训练的启示——

00:00 deepseek对我们提供的帮助-我们都问过哪些问题！
02:13 朋友妈妈问deepseek如何共情自己的博士孩子
07:40 模型对非传统知识问题的回答

47:29 对我们生活中自我养育的启示
   47:29 从认知层面主动剔除虚假奖励
   54:11 练习耐受长期无反馈的缓慢过程
   59:06 不需要基于反馈频繁调整方向
   01:04:03 进入真实世界

模型发展时间线

2017年，OpenAI的Paul F. Christiano等人在的一篇论文中正式提出的「强化学习」（RLHF）的概念，它指的是，通过人工标注的偏好数据训练模型，指导模型生成符合人类价值观的文本。

2023年，思维链（Chain-of-Thought）技术被广泛应用，通过将复杂任务分解为多步推理，模型仅通过少量示例即可学习到任务内在逻辑，从而减少对每一步反馈的需求，初步降低了对密集奖励的依赖。

2024年12月，OpenAI发布强化微调技术（Reinforcement Fine-Tuning, RFT），让模型通过少量示例学习推理模式，而非简单模仿输入数据。RFT通过稀疏奖励（如任务完成度的二元反馈）驱动模型自主探索解决方案，显著提升了复杂任务的泛化能力。

2025年，DeepSeek R1模型验证了后训练阶段稀疏奖励的scaling law，即模型规模扩大后，稀疏奖励仍能有效提升性能。这打破了传统密集奖励对数据量的依赖，推动大模型向更复杂、开放的任务发展。

人类学习认知相关理论

「刺激-反应」理论，也称作「学习的联结理论」，认为学习是通过刺激和反应之间的联系形成的。这个理论强调重复和条件反射在学习中的作用。代表人物伊万·巴甫洛夫（Ivan Pavlov）、约翰·华生（John B. Watson）、斯金纳（B.F. Skinner）。

建构学习，学习是一个主动构建知识的过程，而不是被动接受信息。你通过自己的经验、思考和与环境的互动，逐步建立起对世界的理解。这个理论强调学习者主动参与和个性化理解，每个人的学习过程都是独特的。代表人物让·皮亚杰（Jean Piaget）和列夫·维果茨基（Lev Vygotsky）

相关概念

虚假自体与真实自体
真实自体，是一个人真实的自我，包括他/她的真实感受、想法和需求。真实自体是人在没有外界压力或伪装的情况下自然表现出来的状态。
虚假自体，是为了适应外界环境或满足他人期望而表现出来的自我。虚假自体可能掩盖了真实的情感和需求，通常是为了获得认可或避免冲突。

内部动机与外部动机
内部动机，指的是一个人因为内心的兴趣、满足感或成就感去做某件事。比如，一个人因为喜欢画画而画画，而不是为了得到别人的夸奖或奖励。
外部动机，是为了获得外部的奖励或避免惩罚而去做某件事。比如，一个人为了得到奖金或避免批评而工作。

主体性，指的是一个人作为独立个体的自主性和自我意识。拥有主体性的人能够独立思考、做出决定，并对自己的行为负责。一个人能够意识到自己是自己行为的主人，而不是被动地受外界影响。

相关内容

【长途巴士02】欢迎来到真实世界

开头 Explosions in the Sky - Your Hand in Mine (The Polish Ambassador Remix) The Polish Ambassador

中间垫乐 Sæglópur迷失大海 Sigur Rós

结尾 星际穿越（钢琴版）Jcy East

剪辑制作 by 认真负责可爱的Daisy

牧田，一个具有好奇心和生命力的人，心理学与自然博物深度爱好者，互联网从业者，也曾做过人物记者，对AI持续探索中，也希望为这个世界建立更多连接

梓彤，以深入理解世界、与人建立深度关系为长期目标的正念练习者

「长途巴士」是一档从生活体验出发，借助心理学与更多维度视角，尝试找到更深入的理解已经与之共处方法的播客。我们愿意走入真实世界，愿意进行长途旅行。

如果你想跟我们建立更长期的关系，欢迎加入社群（售票员微信：changtubus），一起远行。

此外我们已经建立微信公众号「长途巴士播客」并在微信「听一听」中同步发布播客内容，欢迎订阅，一起出发！