[春节特别版]刘杨|从"Deepseek"谈大模型的新范式与教育AI的未来

本期节目临时加录，聚焦最近引发行业热议的开源大模型「Deepseek」。

我邀请到资深大模型研究员刘洋，深入探讨了该模型的独特之处、技术原理、以及其在教育领域和AI人才培养方面的潜在影响。我们还讨论了结合通用大模型的演进路径，探讨了对话式生成模型如何进一步在垂直领域（如教育）发挥作用，并对未来5—10年大模型的发展及其对人才需求的影响进行了预测。

内容大纲

开场与嘉宾自我介绍

「Deepseek」开源模型在近期媒体和行业内的热度与影响

十年AI领域经验，主要研究对话系统、教育与AI的结合

回顾深度学习从萌芽到大模型崛起的行业变迁

从Transformer到大语言模型的演进

语言即智能：语言在AI中的地位与重要性

「Next Token Prediction」与大模型涌现能力的关系

GPT系列的发展与「语言+思维」的研究脉络

模型规模与推理能力的关系

Knowledge（知识）与Reasoning（推理）的双向提升

编程数据、数学数据对增强推理能力的帮助

「语言+代码」如何训练出更强的综合处理与推理能力

聊「Deepseek」的核心思路

纯强化学习（RL）路径与「高质量少量数据」的关键作用

与AlphaGo/AlphaZero的类比：自我对弈、自我纠正的重要性

下一阶段「Next Token Prediction」与「Chain of Thought」涌现的背后机制

大模型与行业应用的平衡

如何看待API调用与自主训练小模型之间的抉择

模型蒸馏（Distillation）与领域调优（Domain-specific Tuning）的可行性

大模型的通用性 vs. 小模型的垂直效率与成本控制

AI+教育场景：机会与挑战

从「AI写作业」到「深度交互」：如何促进真实学习而非偷懒

个性化学习、实时反馈与教育资源公平化的展望

教师角色与学生学习动机的平衡

对未来5-10年的预测

模型规模与性能是否会撞墙？可能出现新范式、新路径

「深度学习+强化学习+合成数据」的前景

强人工智能（AGI）潜在出现的机遇与风险

-------------------------关于伊伊子------------------------

伊伊子2024年的复盘

伊伊子专门为AI教育者打造的开源AI教育论文库

伊伊子专门为老师和AI创业者打造的20种教学场景指令

伊伊子的小红书传送门

-------------------------关于听友群------------------------

如果您对AI和教育的融合充满兴趣，欢迎填写我们的听友群入群申请问卷！🎧点击链接，或扫码，与更多志同道合的伙伴一起交流最新的行业动态、分享学习经验，并共同探讨AI如何重塑教育的未来。期待在听友群中与您相遇，共同成长！😊

-------------------------相关词介绍------------------------

1. Large Language Model (LLM)｜大语言模型

在大规模文本语料上进行训练，能够理解并生成自然语言的模型，具备回答问题、写作、对话、推理等多种能力。能够在多种任务（如翻译、摘要、问答等）上表现出通用性，是当前AI研究与应用落地的主要动力之一。

2. Transformer 架构

由论文《Attention Is All You Need》提出，基于“自注意力（Self-Attention）”机制的神经网络结构。已成为构建大语言模型的主流框架，以并行计算和高效捕捉序列关系见长，极大提升了模型对长文本的理解与生成能力。

3. GPT（Generative Pre-trained Transformer）

OpenAI 提出的系列大模型，以Transformer为基础，先在海量无监督文本上进行预训练，再在有监督数据或指令数据上进行微调（Fine-tuning）。包括GPT-3、GPT-4 等多代模型，引领了对话式AI的“出圈”，为各类自然语言处理应用提供了通用的“语言理解+生成”能力。

4. Emergent Ability（涌现能力）

指大模型在规模扩张或训练策略改变后，突然展现出原本规模较小时所没有的高级能力（如更深层次的推理、复杂的问答能力等）。体现了大模型“量变到质变”的重要特性，也启发研究者在训练过程中关注临界规模、训练方法等关键点。

5. Scaling Laws（扩展性法则）

深度学习中模型性能（如泛化、推理能力）随模型参数量及训练数据规模增加而不断提升的一类规律或经验总结。为决定“堆多少数据、训练多大模型”提供指导性参考，也帮助研究者预测进一步扩展规模的收益与潜在瓶颈。

6. Next Token Prediction（下一个词元预测）

许多语言模型的核心训练目标：在给定前文上下文的条件下，预测下一个最有可能出现的词（Token）。通过大量训练，模型能学习到语言结构、上下文含义及部分推理，是 GPT 系列等自回归模型的根基。

7. Prompt Engineering（提示词工程）
通过精心设计模型输入（Prompt）的方式，引导模型在生成回答时更准确、连贯或满足特定需求。在无需额外微调的前提下，最大化利用现有大模型能力。常用于原型开发或快速实现各种功能（如写作、翻译、代码生成等）。

8. Domain Adaptation / Domain-Specific Tuning（领域适配 / 领域微调）

将通用预训练模型在特定领域（如医学、法律、教育）或特定任务上进行进一步训练或微调，让模型对该领域的问答或推理更精确。提升模型在专业场景中的准确度和可靠性。常见手段包括小规模微调（Fine-tuning）、指令微调（Instruction Tuning）等。

9. Fine Tuning（微调）

在已有预训练模型的基础上，用少量标注数据再次训练模型，使其针对指定任务或风格进行优化。在不“从头训练”模型的前提下，快速让模型适配某一领域或任务，大幅减少训练成本与数据需求。

10. Synthetic Data（合成数据）

由模型自我生成或通过仿真模拟方法获得的训练数据，用于补充真实数据在规模、场景多样性或隐私等方面的不足。帮助突破“真实世界数据”不足的瓶颈，为模型的持续训练、强化学习等提供更多样且可控的数据源。

11. Reinforcement Learning (RL，强化学习)

在智能体与环境的交互过程中，通过“奖励（Reward）”信号来引导模型学会最优策略的学习方法。AlphaGo、AlphaZero在棋类任务上的成功，推动强化学习成为主流研究热点，大语言模型可结合RL提升推理能力或生成质量（如RLHF等）。

12. Reward Function（奖励函数）

在强化学习中用于衡量某一步决策或整体策略的好坏程度；以此为依据向模型提供正或负反馈。奖励函数设计直接影响模型收敛速度和最终表现，如在自动代码生成、数学推理等任务中，通过准确率或测试用例通过率来设置“奖励”。

13. Self-Play / Self-Sampling（自对弈 / 自采样）

强化学习或自博弈（Self-Play）方式中，模型同时充当“对手”，通过内部对弈或自我采样来积累经验并提升决策能力。AlphaZero凭借自对弈学会了远超人类水平的棋类游戏。大语言模型可在特定任务上进行“自问自答”，生成更多训练数据。

14. AlphaGo / AlphaZero

DeepMind 公司开发的围棋、国际象棋等AI程序，通过大规模自对弈与强化学习，一举超越人类顶尖水平。让强化学习在复杂博弈场景中大放异彩，启示“自采样、自博弈”的通用方法，可扩展到更多领域。

15. Chain of Thought（思维链）

指大模型在回答或推理问题时，将推理过程的多步思考显式或隐式地呈现出来的一种方法，如中间计算步骤、逻辑分解等。有助于解决数学题、代码调试等需要多步推理的任务。还能在一定程度上提高模型对答案的准确性与可解释性。

16. Zero-Shot & Few-Shot Learning（零样本 / 少样本学习

Zero-Shot Learning：模型在未见过该任务或数据的情况下直接完成该任务。

Few-Shot Learning：模型只需极少量示例就能快速适应新任务。
意义：反映大模型在理解泛化方面的强大能力。在落地时可减少对大规模标注数据的依赖，节省成本。

17. Model Distillation（模型蒸馏）

从一个“大师级”大模型（Teacher）中提取知识并“蒸馏”到较小模型（Student），从而在更低计算成本下获得近似的性能表现。有助于在资源受限环境（如移动端）部署AI能力。让更多团队能以小规模模型进行研究或商用落地。

18. Knowledge Graph（知识图谱）

以实体-关系-实体（如“北京-首都是-中国”）的形式对知识进行结构化表示。使机器能够更好地理解概念间关系，并进行推理。大语言模型通常隐式“学到”部分知识图谱，但也可外部调用显式知识增强回答准确度。

19. Hallucination & Misinformation（幻觉 / 虚构 & 错误信息）

大语言模型在生成文本时，出现与事实不符或凭空编造的内容即“幻觉”，可能导致传播错误或失实信息。是模型内部基于统计相关性而非事实检索的结果。也是许多应用场景（尤其教育和医疗）中最受关注的潜在风险。

20. Cognitive Load（认知负荷）

在教育学和人机交互中，指个体在完成认知任务时需要动用多少心理资源。负荷过大易造成学习效率下降。AI 系统的UI/UX设计应避免信息过载。在智能教育产品中，需要恰到好处地辅助学习而非干扰或替代思考。

21. Personalized Learning / Individualized Education（个性化/差异化学习）

利用AI和大数据手段，为不同学习者制定更契合其水平、兴趣的学习进程、内容与评测方式。可大幅提升学习效率和动机。在资源有限的情况下，也能提供准定制化的教育服务以提高教育公平性。

22. Scaffolding（支架式学习 / 支撑式学习）

教育理论中的概念，为学习者提供恰当的引导或提示，以分阶段、分难度渐进式地掌握新知识。AI 教学系统可以模仿教师思路，提供恰当难度或提示。可帮助学生减少依赖而逐渐独立掌握技能。

23. Feedback Loop（反馈回路）

模型或系统输出结果后，用户或环境对结果的正确性或满意度进行反馈，模型根据反馈进行迭代更新或优化。有助于AI持续改进、适应真实使用场景。教育场景里，通过多轮交互，帮助学生纠错、巩固和提升。