【长途巴士25】deepseek对自我养育的启示,拒绝虚假的密集奖励

【长途巴士25】deepseek对自我养育的启示,拒绝虚假的密集奖励

73分钟 ·
播放数308
·
评论数4

大家好~本期我们讨论了deepseek带给我们的变化,模型与人类认知的发展,大模型的迭代与人对学习的认识存在着相似的演化过程,从对大模型的演化中也可以得到对自我训练的启示——

声音地图

  • 00:00 deepseek对我们提供的帮助-我们都问过哪些问题!
       02:13 朋友妈妈问deepseek如何共情自己的博士孩子
       07:40 模型对非传统知识问题的回答
  • 13:07 模型的发展过程与人类认知理论的发展过程
       14:59 deepseek的推理创新重要来源,使用稀疏奖励的训练方式
       31:44 联想到教育中的例子
  • 47:29 对我们生活中自我养育的启示
       47:29 从认知层面主动剔除虚假奖励
       54:11 练习耐受长期无反馈的缓慢过程
       59:06 不需要基于反馈频繁调整方向
       01:04:03 进入真实世界

模型发展时间线

  • 2017年,OpenAI的Paul F. Christiano等人在的一篇论文中正式提出的「强化学习」(RLHF)的概念,它指的是,通过人工标注的偏好数据训练模型,指导模型生成符合人类价值观的文本。
  • 2023年,思维链(Chain-of-Thought)技术被广泛应用,通过将复杂任务分解为多步推理,模型仅通过少量示例即可学习到任务内在逻辑,从而减少对每一步反馈的需求,初步降低了对密集奖励的依赖。
  • 2024年12月,OpenAI发布强化微调技术(Reinforcement Fine-Tuning, RFT),让模型通过少量示例学习推理模式,而非简单模仿输入数据。RFT通过稀疏奖励(如任务完成度的二元反馈)驱动模型自主探索解决方案,显著提升了复杂任务的泛化能力。
  • 2025年,DeepSeek R1模型验证了后训练阶段稀疏奖励的scaling law,即模型规模扩大后,稀疏奖励仍能有效提升性能。这打破了传统密集奖励对数据量的依赖,推动大模型向更复杂、开放的任务发展。

人类学习认知相关理论

  • 「刺激-反应」理论,也称作「学习的联结理论」,认为学习是通过刺激和反应之间的联系形成的。这个理论强调重复和条件反射在学习中的作用。代表人物伊万·巴甫洛夫(Ivan Pavlov)、约翰·华生(John B. Watson)、斯金纳(B.F. Skinner)。
  • 顿悟学习,它不是通过反复尝试或条件反射,而是通过突然意识到问题的解决方法。代表人物沃尔夫冈·苛勒(Wolfgang Köhler)
  • 建构学习,学习是一个主动构建知识的过程,而不是被动接受信息。你通过自己的经验、思考和与环境的互动,逐步建立起对世界的理解。这个理论强调学习者主动参与和个性化理解,每个人的学习过程都是独特的。代表人物让·皮亚杰(Jean Piaget)和列夫·维果茨基(Lev Vygotsky)

相关概念

  • 虚假自体与真实自体
    真实自体,
    是一个人真实的自我,包括他/她的真实感受、想法和需求。真实自体是人在没有外界压力或伪装的情况下自然表现出来的状态。
    虚假自体,是为了适应外界环境或满足他人期望而表现出来的自我。虚假自体可能掩盖了真实的情感和需求,通常是为了获得认可或避免冲突。
  • 内部动机与外部动机
    内部动机,
    指的是一个人因为内心的兴趣、满足感或成就感去做某件事。比如,一个人因为喜欢画画而画画,而不是为了得到别人的夸奖或奖励。
    外部动机,是为了获得外部的奖励或避免惩罚而去做某件事。比如,一个人为了得到奖金或避免批评而工作。
  • 主体性,指的是一个人作为独立个体的自主性和自我意识。拥有主体性的人能够独立思考、做出决定,并对自己的行为负责。一个人能够意识到自己是自己行为的主人,而不是被动地受外界影响。
  • 鲁棒性,指的是一个系统或物体在面对外界干扰或变化时,仍然能够保持稳定和正常运作的能力。
  • 趋同进化,在生态学中,亲缘关系较远的生物,在相似环境中独立演化出了相似形态或者功能的现象。

相关内容

【长途巴士02】欢迎来到真实世界

《deepseek模型训练给人类的启示——拒绝密集的虚假奖励》 牧田基于本期主题的写作文章

🎵

开头 Explosions in the Sky - Your Hand in Mine (The Polish Ambassador Remix) The Polish Ambassador

中间垫乐 Sæglópur迷失大海  Sigur Rós

结尾 星际穿越(钢琴版)Jcy East

剪辑制作 by 认真负责可爱的Daisy

我们是谁

牧田,一个具有好奇心和生命力的人,心理学与自然博物深度爱好者,互联网从业者,也曾做过人物记者,对AI持续探索中,也希望为这个世界建立更多连接

梓彤,以深入理解世界、与人建立深度关系为长期目标的正念练习者

关于播客

「长途巴士」是一档从生活体验出发,借助心理学与更多维度视角,尝试找到更深入的理解已经与之共处方法的播客。我们愿意走入真实世界,愿意进行长途旅行。

如果你想跟我们建立更长期的关系,欢迎加入社群(售票员微信:changtubus),一起远行。

此外我们已经建立微信公众号「长途巴士播客」并在微信「听一听」中同步发布播客内容,欢迎订阅,一起出发!

展开Show Notes
沙发啦啦啦!最近也是深深被DS震撼。。。
牧田
:
嘿!碰拳!每天都想问问deepseek
梁小JO
梁小JO
2025.3.22
来听
牧田
:
😄