先祝大家在蛇年里像AI一样快速进化,突破极限,探索未知!
这个春节假期,deepseek成了比春晚还要热门的话题。其中一个重要的讨论是,OpenAI宣称DeepSeek违规“蒸馏”,即:DeepSeek使用OpenAI专有模型来训练自己的开源聊天机器人。我们这期节目,不去评价或声讨OpenAI的指责,更不去证明deepseek蒸馏了或者没有蒸馏;因为我们第一不是当事人,我们没有第一手的信息来证明任何东西;第二,我们也根本不在要去证明任何一方的位置上。这期节目的目的,是来学习一下,什么是蒸馏技术,为什么会存在蒸馏这种现象,以及,在哪些场景下的蒸馏是被允许的。
节目里我会引用多个来源关于蒸馏的介绍,尽量全面和客观。并且只做引用,不做任何评价。
01:54 金融时报讲,所谓蒸馏技术,是指开发者使用更强大的模型的输出来训练小模型,从而以更低的成本来获取更高性能的一种做法。
02:09 蒸馏是业界常见的做法,但问题是...
02:31 专门为大模型提供训练数据的八友科技的创始人、清华大学计算机系毕业的博士梁斌,他对蒸馏技术的解释是...
03:13 梁博还说,蒸馏的过程一般是这样的...
04:00 关于蒸馏技术,ChatGPT是这样来解释的...
04:11 旨在将一个大型的、复杂的模型通常称为教师模型的知识,转移到一个较小的、较轻量的模型,通常称为学生模型当中。
06:27 什么是蒸馏的这个问题,DeepSeek给出了和chatGPT类似的、或者基本一致的回答。
06:40 在人工智能行业当中,教师模型和学生模型通常来自于同一家公司吗?
10:02 OpenAI允许其他公司用ChatGPT作为教师模型吗?
13:33 同样的这个问题,"OpenAI是否允许其他公司用ChatGPT作为教师模型?",我又问了DeepSeek。
15:34 蒸馏技术不仅仅是一种模型压缩的技术,更是一种跨公司合作的潜力所在。
15:51 然而,这个话题也引发了一个更加深层次的思考。