E01: 从工程师的角度聊聊 ChatGPT 与大模型，通用 AI 的第一个里程碑？恐怕不是

MLOops

61分钟 ·2年前

4155

其实自 2021 年初以来，关于大规模语言模型的研究就已经如火如荼。最近 ChatGPT 通过全新的人机交互方式，再一次震撼了我们。

当然问题也随之而来，微信有没有可能借助其广阔的中文对话数据集训练出更好的中文大模型？ChatGPT 的未来会如何？沿着 Transformer 结构的演进，我们是否能够迎来真正的通用人工智能（AGI）？

为了更加深入地了解这些问题，我们分别在工业界和学术界邀请了一位嘉宾，一起讨论大模型的现状及未来。

本期嘉宾：方佳瑞，孙天祥，高策（主播）

方佳瑞：HPCAITech（潞晨科技）Cofounder & CTO ，专注于大模型的训练和推理框架 GitHub 个人主页

孙天祥：复旦大学自然语言处理实验室博士研究生个人主页

高策：TensorChord Cofounder & CEO 博客, GitHub 个人主页

我们聊了什么

01:29 主播跟嘉宾的自我介绍

03:41 嘉宾最近几个月在做的工作

06:52 方佳瑞博士在之前微信 AI 工作时对于大模型的思考，微信有没有做大模型的打算？

10:57 孙天祥博士对于大模型的历史和未来的独到看法

15:44 过去 AI 进展是从 CV 领域开始蔓延到其他领域，而大模型为什么首先出现在 NLP 领域？

20:57 Diffusion 在 CV 领域会不会被其他结构取代？

23:48 OpenAI 是否会垄断大规模语言模型？

27:29 大模型时代的 AI 研究还会以开源的形式进行么？

31:05 训练大模型的技术会不会成为一种屠龙技，只能大公司才需要？

33:05 大模型会不会让 NLP 工程师失业？大模型对 NLP 行业的影响

36:08 国产大模型有没有必要，谁来做？

38:12 Transformer 结构有可能进化出通用 AI 么？

⚠️：以下是非常技术向的问题

42:41 有哪些 NLP 的领域是目前大模型还不擅长的？

43:24 基于过去知识（数据）训练的大模型如何能在未来一段时间继续适用？大模型的更新与维护

46:28 目前的大模型训练和传统数据并行的分布式训练之间有什么显著的差异？

49:20 从技术角度 Ray 能给大模型训练带来什么好处或优势？

51:35 训练框架的未来发展方向

53:54 如何评估大模型的效果

56:43 Chain of thought 与 fine-tune 的辩证关系

我们讨论中提到的论文/开源项目（基本按照时间顺序）：

本期文字记录（Transript）：飞书文档

如果您也对大模型感兴趣，欢迎通过 Discord 给我们你感兴趣的内容，和建议！discord 邀请链接

展开Show Notes

Syt_seDs

2023.2.09

很棒的节目，有个建议，当一个嘉宾在输出的时候，其他嘉宾能不能别一直频繁地“嗯嗯嗯”、“对”，声音还挺响，有点盖过发言，感觉听起来有点割裂感。

gaocegege

:谢谢建议！下次我们剪掉

Syt_seDs:不过我听到后半段就习惯了哈哈哈哈，感觉也没那么大的影响，节目的质量高，把注意力给转移了。

小狼

2023.2.02

高策哥哥厉害厉害

gaocegege

:谢谢支持😃

Byte子杰

2023.1.29

LLM Sys 同行表示讲的太好了，学到了很多，十分感谢！期待下一期的更新！

gaocegege

:谢谢！

东方_Fpci

2023.1.19

有没有交流群组比如discord 微信群的？

gaocegege

:discord：https://discord.gg/DUUMAXqxv5

lavaaa3

2023.2.15

哈哈三个技术人说话在播客圈稍显不利索不过内容是干货

ShawnTung

2023.1.21

21:24 请问这里说的非diffusion的是哪个模型？

周金晶Allen:问了一下孙博士，是这个 https://parti.research.google/

却东

2023.3.07

discord链接过期了

gaocegege

:好的我来更新一下，谢谢提醒

gaocegege

:https://discord.gg/DUUMAXqxv5

是腿腿子吧

2023.2.14

打卡

好奇心害不死的汪

2023.2.11

一期很棒的节目学习到很多谢谢分享

0xE0F

2023.2.01

cool

DHoHD

2023.2.13

主播，你做节目火了之后会有好多多人教你怎么做节目，习惯就好。哈哈哈哈哈哈。

流浪治部少辅猫

2023.8.16

请问节目有公众号么

gaocegege

:可以搜索：TensorChord

HD467976y

2023.2.15

太浅了

gaocegege

:是说内容太浅显了么？

HD467976y:是

一个半圆

2023.2.08

有没有基础一点的讨论哇

gaocegege

:不好意思啦，我们分享是想给大家一个行业从业者的角度对 ChatGPT 的看法 ^_^

一个半圆:有点听不懂哈哈哈。但是又感觉是可以听懂的。

milanow

2023.2.06

37:48 除了夫妻肺片这类的数据case之外，中文与英文的表达结构（语系不同），这部分的差异主要在模型里面体现在哪儿呢？网络结构么？

gaocegege

:网络都是一样的，语法也有比较强的迁移性，主要就是中文世界的概念和知识嘉宾孙天祥的回复

CC023

2023.2.10

谢谢。

却东

2023.3.07

15:41 大模型出现其实就是有scale能力的transformer加信息量够大、数据够便宜的ssl

一个半圆

2023.2.08

眼冒金星

milanow

2023.2.06

29:29 如果真如linux vs windows的话，那现在所有大公司在train自己的大模型，他们到达哪种程度才会放弃呢

小川Ryan

2023.1.19

很好的节目，希望能有更多的大模型系列节目👍👍

gaocegege

:谢谢哦，如果有感兴趣的内容也可以告诉我们，我们也可以有针对性的准备一下

打开小宇宙查看更多精彩评论