Vol.19 当我们谈论大语言模型的时候我们在谈论什么代码时光机

Vol.19 当我们谈论大语言模型的时候我们在谈论什么

33分钟 ·
播放数715
·
评论数16

用超简单的方式解释大语言模型的本质原理。

这期节目可以当作第一期节目的增强补丁,对LLM做了进一步的详细说明,包括如下的基本问题:

1. LLM是用什么形式阅读人类语言的?

2. 知识以何种形式在LLM中流动?

3. Transformer和注意力机制是什么?

4. (单头)注意力机制的计算过程。

为了尽可能减轻术语带来的心理负担,我尽可能地用例子和直观描述来代替学术描述,不免带来叙述上的不严谨,欢迎评论区对此打补丁。、

节目中提到的,Google的两篇最重要的论文是:

[1] Mikolov, Tomas. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 3781 (2013).

[2] Vaswani, A. "Attention is all you need." Advances in Neural Information Processing Systems (2017).

下面是AI生成的时间轴:

02:02 解密大语言模型:揭示其内部实现机制与写作能力

04:02 大语言模型的编码奥秘:从文本到信息的转换之道

06:04 大语言模型的基石:磁向量编码与人类语言理解

08:12 从文字到向量:理解大语言模型内部的语言处理方式

10:58 GPT三:理解人类语言的磁向量表示和信息处理方式

13:43 GPT-3:了解一千七百万个参数的计算方法和原因

16:25 深度学习中的Transformer模型:理解注意力机制的本质

19:12 深度学习中的 Tranformers:注意力模块的原理和应用

21:56 深度剖析Transformer中的注意力机制:从单头到多头的实现细节

24:40 机器学习中的向量运算:理解点乘、点程和注意力机制

27:24 Transformer模型中的注意力机制:高效的信息提取与并行计算

30:07 Transformer的注意力机制:如何提高信息提取效率?

展开Show Notes
春晴
春晴
2025.2.22
主播用心了,能将这么复杂的东西解释得明白。不过这应该有些经验的人才能听得更明白些:)
HD436684n
HD436684n
4天前
老师文字版有吗,听完在学习一下
HD436684n:加油,点赞关注了
里维糖
:
没有文字稿😗只有一个混乱的outline
HD436684n
HD436684n
4天前
讲的太好了,浅显易懂
NANALUU
NANALUU
2025.2.26
感谢主播的讲解
15:21 太赞了,终于明白了参数量背后的含义
希望围绕AI,大模型有很多类似通俗易懂的作品哦
里维糖
:
大家爱听的话会多考虑AI相关的话题:)
HD711696k
HD711696k
2025.2.17
例子相对好理解,赞
14:04 讲的很好,请教下怎么理解“知识的流动”?
里维糖
:
在我们说的高维空间中,通过QKV的机制进行信息的选择组合,也就是向量的加权聚合。这从几何角度就是一种“流动”
讲得非常好,很喜欢这个标题,也喜欢选择的内容。讲解中多次提到高中数学,感觉懂高中数学就可以懂大模型的精髓了。完型填空和赵本山的例子都通俗易懂,这一期的内容,如果制成视频,效果就更好了。
里维糖
:
相比视频,探索声音的信息传递效率更好玩😆
码农雪人儿:当然. 希望坚持下去,你的风格很独特。这是最重要的。
3条回复