「AI 如何改变内容?」这是我们在中秋节前参加「声动活泼」在香港举办的「Future&Remix」活动时主持的一场圆桌主题。这场圆桌的嘉宾几乎是一条内容生产的产业链:内容创造者(林亦,B站up主)、工具生产者(Gary Ngan,美图CFO)、行业研究者(马金馨Yolanda,任教于香港大学新闻传播系,开设 AI 相关课程,曾在联合国开发计划署亚洲总部担任创新顾问),当时想探讨的是,在 AI 极大的降低的内容创作的门槛之后,会带来什么新的变化。
没想到与此同时,一个新的刷屏应用出现了——NotebookLM。我们都在社交媒体上听到了 NotebookLM 生成的播客,对它的内容整理和表达能力感到惊讶,也想探讨孵化出 NotebookLM 的 Google Labs 是怎么做出这个应用的,与此同时也联想到,当时活动中探讨的这个话题:AI 如何改变内容,在 NotebookLM 出现之后,会不会有新的答案呢?
我们从嘉宾的回答中引申出一些思考和回答,作为抛砖引玉,欢迎大家从我们介绍的 NotebookLM 和 10 个使用案例入手提供你们的看法。
🆕 在「十字路口黑板报」中,我们将邀请十字路口的朋友们来介绍他们的最新产品、活动、招聘等等动态。上周我们讲了两个朋友的新项目,这周我们也有两件AI新鲜事儿跟大家分享:
- 新世相发布「AI 遗嘱」产品
- 海外创业者要搭建国内工程师团队?国内工程师希望找硅谷公司的工作机会?欢迎接洽十字路口小助理微信: Rwkfbcianvd
🟢 Part 1 - 从刷屏的 NotebookLM 聊起
03:32 久违的聊天形式,本想说说一次串台活动和思考,没想到出现了一个新的刷屏产品
04:50 NotebookLM 是什么
06:23 我们把十字路口的资料丢给 NotebookLM,感受一下它生成的音频
08:17 NotebookLM 会是下一个 Killer app 吗?
09:46 我们找了 10 个 NotebookLM 的使用案例,有人基于它做了新产品,有人脑洞大开
19:35 NotebookLM 火了这么久,我们怎么现在才聊它
20:27 第一眼还以为它是创业公司做的,孵化了它的 Google Labs 是什么来头?
23:02 深入了解 Google Labs,负责人在 Google 待了 15 年
23:47 NotebookLM 团队里,竟然有一位作家
26:14 有了 NotebookLM 之后,“AI如何影响内容”有了新的答案,例如,为编辑记者总结文档
27:40 开个脑洞:NotebookLM 会不会把传统新闻阅读变得有趣一点
🟢 Part 2 - 圆桌:「AI 如何改变内容?」
29:20 声动活泼 Future&Remix 原声:港大老师、B站up主、美图 CFO,聊聊 AI 如何改变我们消费的内容
圆桌问题一:过去十年和过去一年,AI在你的生活/工作里改变了什么?
- 30:35 过去十多年,新闻行业一直在追赶技术的变化,旧的内容权力关系已经被打破
- 31:55 从实验室到产品功能,AI 在美图的产品中扮演了什么角色
- 35:20 AlphaGo 改变了我选择专业的方向
圆桌问题二:AI 在信息生产方面渗透到了什么程度,哪些事情从不可能变成了可能?
- 37:47 新闻信息收集和内容生产方面,AI提高了新闻编辑室的效率,但传统新闻业的商业模式正在瓦解
- 41:11 美图的 AI 功能,生成式 AI 和传统的 AI 都很重要
- 43:20 越来越多的人借助 AI 工具向世界展示他们的想法
圆桌问题三:AI 给内容生产的供需关系带来了什么变化?
圆桌问题四:AI 给我们的生活制造了哪些问题?
圆桌问题五:一线内容生产者使用 AI 创作的故事
圆桌问题六:作为信息消费者,如何把控自己的信息消费质量
欢迎订阅「十字路口」播客
🚦 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会。十字路口是乔布斯对苹果公司的一个比喻,形容它站在科技与人文的十字路口,伟大的产品往往诞生在这里。AI 正在给各行各业带来改变,我们寻找、访谈和凝聚 AI 时代的「积极行动者」,和他们一起,探索和拥抱新变化,新的可能性。
👦🏻 主播 Koji:新世相/躺岛的联合创始人。我相信科技尤其是 AI 会在未来彻底改变社会,赋能人类,欢迎大家找我聊天,碰撞想法,链接下一个可能性。Koji 的即刻,Koji 的网站
👧🏻 主播 Ronghui:供职于科技 VC,前《第一财经周刊》驻硅谷记者,Ronghui 的即刻
欢迎加入「十字路口」的会员群
☀️ 第一手的 AI 资讯与洞察
👫🏻 鼓励大家谈恋爱/交朋友/寻找未来的同路人
🦀 添加小助理微信入群:Rwkfbcianvd ,或扫下方二维码
🎄 本播客由「新世相声音森林播客计划」支持。
主要包括两部分:
SoundStream 是一种神经音频编解码器,可以高效地压缩和解压音频输入,而不会影响其质量。
在训练过程中 SoundStream 可以学到韵律和音色等属性。
AudioLM 框架不对生成的音频类型或组成做出任何假设,并且可以灵活处理各种声音,而无需进行架构调整。
在 TPU V5E 上 3 秒就可以生成2分钟的语音内容。
他们还研发了一种专门的Transformer架构,可以高效处理信息的层次结构,与声学Token的结构相匹配。
为了教导模型如何生成多个发言者之间的真实对话,对其进行了数十万小时的语音数据预训练。
然后在一个更小的数据集上对其进行了微调,该数据集包含高音质和准确的发言者注释的对话,由多位配音演员进行非脚本和真实的不流畅语言对话组成。
详情:deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/
(↑来源:归藏)