聊点稍微硬核一点的，填个之前的坑，面向非码农非AI从业者的AI模型入门。“浅”谈GPT背后模型的真实，你将听到主播尽力用大白话解释的如下内容:
* 神经网络和AI工作原理
* 神经网络的输入、输出、训练
* 词向量 word embedding/one-hot/word2vec
* 梯度下降
* seq2seq，encoder-decoder
* attention机制的具体运作
* transformer框架
无公式无复杂数学，可放心食用。同时主播水平有限，为了尽量让意思好理解可能有些错误，若有纰漏，烦请指正，提前抱歉！
主播：松阴
节目开始前，请大家加入听友群(加群方法见播客介绍页)，以及帮忙多多转发！
00:53 “免责声明”
03:00 GPT到底指的是什么？
04:27 AI就是用数值化的方法对世界做参数估计
05:44 为什么是神经网络？
07:14 从one-hot encoding开始，把文字输入变成数值向量
09:32 模型输出和如何训练(损失函数和优化模型)
13:18 更好的输入：词向量 word embedding (word2vec, glove, …)
19:23 梯度下降、梯度爆炸/消失
23:03 生成式、语言模型、seq2seq
26:00 RNN 循环神经网络
28:48 Attention 注意力机制
31:06 query, key, value 详解attention机制
35:00 multihead 多头注意力
37:50 attention到Transformer
39:10 positional encoding 位置编码
41:16 训练解码器decoder需要masked attention
42:42 最终decoder生成结果需要结合encoder输出和decoder本身attention
延展资料
Transformer框架
attention里的query/key/value
多头注意力
带你可视化了解seq2seq https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/
带你可视化了解attention和 transformer https://jalammar.github.io/illustrated-transformer/
PyTorch的Transformer代码教程 https://nlp.seas.harvard.edu/annotated-transformer/
attention is all you need https://arxiv.org/abs/1706.03762

最受欢迎

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

monkeytyping

kirbycui93@163.com

互联网人的工作内外！在这里你可以听到互联网大厂打工人的日常吐槽、黑话八卦、职业故事分享、计算机科技内容科普、行业展望、以及各种闲聊吹水。

欢迎加入听友群，加小助手微信monkeytyping，拉你入群！

AI_SUMMARIZE_EPISODE

朝十晚久

ep98 GPT背后的真实! 说给普通人理解的Transformer框架和Attention机制

COMMENT_PIN_OPERATION

MUTE_COMMENT_AUTHOR

DELETE

推荐联动之前说transformer模型的节目 https://www.xiaoyuzhoufm.com/episode/6638e17748dbc98b8967d1bb

昨晚最新刷到，微信搜索正在接入 DeepSeek （灰度）👀

有没有可能再出一期当前大模型与各个产业的结合应用以及进一步落地的发展趋势呀？

希望听到类似更多技术干货节目，谢谢！

DeepSeek已经炸了，已经破圈了。本期节目，我们尝试挑战一下用大白话讲述一下DeepSeek模型背后的真实。DeepSeek V3 进化 DeepSeek R1-Zero 进化 DeepSeek R1 ! 幻方到底做了哪些技术创新和奇技淫巧，让DeepSeek突然爆发成为全球顶流？所谓的“多快好省”体现在具体什么地方？
如果你不想再人云亦云地复读DeepSeek模型花钱少，那么听一听本期节目包收获的。
主播：松阴
节目开始前，请大家加入听友群(加群方法见播客介绍页)，以及帮忙多多转发！
01:47 当我们谈论DeepSeek，我们到底在谈论什么模型？
04:46 DeepSeek的训练成本500万美元？！
08:59 美国业界在V3刚出的时候就注意到了
09:40 MoE 混合专家模型
11:50 门控网络：混合专家模型里的“分检”
16:23 多头潜在注意力 MLA
18:36 FP8的大模型实现
22:08 DeepSeek到底有1万张A100显卡吗？
26:00 R1-Zero的Zero来自于Alpha-Zero
27:00 强化学习 vs 监督学习
30:04 GRPO(Group Robust Preference Optimization ) vs PPO(Proximal Policy Optimization)
32:33 训练模板
34:40 R1-Zero的缺点
36:01 训练一个R1模型
38:30 R1训练的第二阶段
40:39 用R1蒸馏小模型
42:18 什么是“知识蒸馏”呢？软标签/硬标签/温度
45:08 蒸馏 vs 强化学习
48:33 吐槽一下：稳定性 and 黑话太多
----------------分割线------------
阅读材料
V3的训练成本比较
强化学习中的GRPO和PPO
R1-Zero的训练模版
R1的二阶段训练总过程
https://arxiv.org/abs/2501.12948
DeepSeek R1 是怎么训练出来的？- R1 论文精读
万字赏析DeepSeek创造之美：DeepSeek R1 是怎样炼成的？
一文看懂MoE混合专家大模型