ep98 GPT背后的真实! 说给普通人理解的Transformer框架和Attention机制朝十晚久

ep98 GPT背后的真实! 说给普通人理解的Transformer框架和Attention机制

46分钟 ·
播放数988
·
评论数11

聊点稍微硬核一点的,填个之前的坑,面向非码农非AI从业者的AI模型入门。“浅”谈GPT背后模型的真实,你将听到主播尽力用大白话解释的如下内容:

  • 神经网络和AI工作原理
  • 神经网络的输入、输出、训练
  • 词向量 word embedding/one-hot/word2vec
  • 梯度下降
  • seq2seq,encoder-decoder
  • attention机制的具体运作
  • transformer框架

无公式无复杂数学,可放心食用。同时主播水平有限,为了尽量让意思好理解可能有些错误,若有纰漏,烦请指正,提前抱歉!

主播:松阴

节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发!

00:53 “免责声明”

03:00 GPT到底指的是什么?

04:27 AI就是用数值化的方法对世界做参数估计

05:44 为什么是神经网络?

07:14 从one-hot encoding开始,把文字输入变成数值向量

09:32 模型输出和如何训练(损失函数和优化模型)

13:18 更好的输入:词向量 word embedding  (word2vec, glove, …)

19:23 梯度下降、梯度爆炸/消失 

23:03 生成式、语言模型、seq2seq

26:00 RNN 循环神经网络

28:48 Attention 注意力机制

31:06 query, key, value 详解attention机制

35:00 multihead 多头注意力

37:50 attention到Transformer

39:10 positional encoding 位置编码

41:16 训练解码器decoder需要masked attention

42:42 最终decoder生成结果需要结合encoder输出和decoder本身attention

延展资料

Transformer框架

attention里的query/key/value

多头注意力

带你可视化了解seq2seq jalammar.github.io

带你可视化了解attention和 transformer jalammar.github.io

PyTorch的Transformer代码教程 nlp.seas.harvard.edu

attention is all you need arxiv.org

展开Show Notes
大王圣代
大王圣代
2024.5.07
置顶
本期BGM
All Your Need Is Love ~ Beatles
yjll
yjll
2024.8.13
能感觉博主尽力了,但这个真的难,估计博主能理解80%的话,能讲出来80中的80就不错了
大王圣代
:
也算某种程度上多次传导后的梯度消失了😅
WindyHu
WindyHu
2024.5.31
还是挺不错的哈哈哈,作为复习材料加深记忆还蛮不错的
jiifll
jiifll
2024.12.26
突然很想喝奶茶
Mark_Yue
Mark_Yue
2024.10.29
讲的很好,用这种方式,上班路上能听进去
JOJOWan
JOJOWan
2024.8.29
我居然在小宇宙听到transformer😂up主讲得很好了
有收获
HD905865q
HD905865q
2024.11.24
我听完了,每个字都认识合起来还是听不太懂,的确用浅显语言描述一个很有深度的内容是很具备挑战的。还是很感谢up主的描述。看看up主主要的受众是谁,比如是否具备很好数学基础的人的理解力就是不同的,有一个受众画像可能能更帮助。这样可以解决描述语言和前置知识解释深度的问题
02:26 叠了两分钟甲了
虾叔
虾叔
2024.7.03
多来几期!