Vol.19 当我们谈论大语言模型的时候我们在谈论什么

用超简单的方式解释大语言模型的本质原理。

这期节目可以当作第一期节目的增强补丁，对LLM做了进一步的详细说明，包括如下的基本问题：

1. LLM是用什么形式阅读人类语言的？

2. 知识以何种形式在LLM中流动？

3. Transformer和注意力机制是什么？

4. （单头）注意力机制的计算过程。

为了尽可能减轻术语带来的心理负担，我尽可能地用例子和直观描述来代替学术描述，不免带来叙述上的不严谨，欢迎评论区对此打补丁。、

节目中提到的，Google的两篇最重要的论文是：

[1] Mikolov, Tomas. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 3781 (2013).

[2] Vaswani, A. "Attention is all you need." Advances in Neural Information Processing Systems (2017).

下面是AI生成的时间轴：

02:02 解密大语言模型：揭示其内部实现机制与写作能力

04:02 大语言模型的编码奥秘：从文本到信息的转换之道

06:04 大语言模型的基石：磁向量编码与人类语言理解

08:12 从文字到向量：理解大语言模型内部的语言处理方式

10:58 GPT三：理解人类语言的磁向量表示和信息处理方式

13:43 GPT-3：了解一千七百万个参数的计算方法和原因

16:25 深度学习中的Transformer模型：理解注意力机制的本质

19:12 深度学习中的 Tranformers：注意力模块的原理和应用

21:56 深度剖析Transformer中的注意力机制：从单头到多头的实现细节

24:40 机器学习中的向量运算：理解点乘、点程和注意力机制

27:24 Transformer模型中的注意力机制：高效的信息提取与并行计算

30:07 Transformer的注意力机制：如何提高信息提取效率？