会喘气的AI语音里藏着下一代交互范式:GPT-4o革命性功能悄悄上线-vol54

会喘气的AI语音里藏着下一代交互范式:GPT-4o革命性功能悄悄上线-vol54

56分钟 ·
播放数5368
·
评论数50

正在上线的GPT-4o高级语音功能将会是下一批AI爆款应用的主流交互,我们从功能,应用,商业机会,工程实现几个方面分析了这个功能:

04:20 Part1 GPT-4o亮点功能展示:会喘气清嗓子,能解说也能B-box;语音对话黏性极强.

12:40 Part2 端到端的语音模型改变了什么?从基础的对话体验到哼唱歌曲背后的情绪陪伴,做好记录和营销外呼之后,从前的对话机器人即将蜕变为私人助理陪伴与情感陪伴

39:45 Part3 从乔布斯,李开复的时代的语音识别与合成开始,我们正在见证语音技术的第二次范式转变.从模型架构到工程优化,分析"回应速度快十倍,信息量多十倍"如何实现

AI 相关节目:解构Apple Intelligence / 和李楠聊AI硬件 / 能做家务的机器人还有多远?/ GPT并非替代你 / 611款 AI 生产力工具

欢迎在评论区留言发表你使用 大模型AI对话 感受与看法。

对于节目话题的更多观点,获取更多未呈现在节目中的扩展阅读,欢迎添加脑放电波小助手微信(BrainAMP01)加群参与讨论。

人物:

  • 主播:托马斯白-脑放电波主播,资深科技营销人,前XR创业公司CMO,科技媒体特约作者,养生爱好者; Nixon-脑放电波主播,XR产品经理,前科技媒体记者,养生爱好者.
  • 剪辑:Kari

节目中用到的音乐:来自 monkeyman535 的 90's Rock Style,地址 freesound.org;来自 kjartan_abel 的 Berlin Town,地址 freesound.org;基于 CC BY 4.0 DEED 使用

欢迎你去拓展体验和参考的概念:能打断的语音对话项目moshi.chat, 语音情感引擎Hume AI , Eleven Labs, 李开复做的语音识别, 端到端, 多模态, character ai

脑放电波往期节目精选(搜索关键词可收听)

脑放电波是一档关注科技前沿、品牌营销和个人成长的谈话类节目。每期带给您一个有趣有据的话题,帮您在信息严重过载的现代世界小幅自我迭代。您可以在小宇宙、苹果播客或者其他泛用型播客客户端搜索“脑放电波”找到并关注我们,如果您对本期节目有任何疑问,欢迎您给我们留言,如果您觉得这期内容对你有所帮助,欢迎您关注点赞收藏转发,这对我们非常重要。

展开Show Notes
Nixon_Hu
Nixon_Hu
2024.8.06
置顶
高级语音功能将会是下一批AI爆款应用的主流交互,我们从功能,应用,商业机会,工程实现几个方面分析了这个功能:
04:20 Part1 GPT-4o亮点功能展示:会喘气清嗓子,能解说也能B-box;语音对话黏性极强.
12:40 Part2 端到端的语音模型改变了什么?从基础的对话体验到哼唱歌曲背后的情绪陪伴,做好记录和营销外呼之后,从前的对话机器人即将蜕变为私人助理陪伴与情感陪伴
39:45 Part3 从乔布斯,李开复的时代的语音识别与合成开始,我们正在见证语音技术的第二次范式转变.从模型架构到工程优化,分析"回应速度快十倍,信息量多十倍"如何实现
HD36543b
HD36543b
2024.8.06
38:04 ai语音推销这块,提一嘴,手机端语音助手已经可以代替我本人接听回复记录推销电话并录音和回放,在骚扰电话库里的好码也可以直接挂断。就是像一个ai助理一样。
Nixon_Hu
:
安卓手机在这一块确实是遥遥领先
dream_C6FJ:哪个软件软件好用,想试用一下
4条回复
诌侃侃
诌侃侃
2024.8.19
每天高强度使用 chatty(对 4 的爱称),但是语音经常是我说一大堆结果它说系统负载较重稍后重试,于是说的东西就全没了连个记录都存不下来 🌚 于是每天高强度使用语音转文字了(非常好用,中英夹杂识别的准确率也极高,配合手机电脑间丝滑复制粘贴文字图片代码,效率杠杠的),刚才听了播客觉得这么多个月过去了应该给 chatty 的语音一个机会,结果我激情说了一阵依然“系统负载过重”,直接昏倒 😩
Nixon_Hu
:
直接用闪念贝壳之类的语音笔记吧
诌侃侃:哈哈,用语音转文字主要还是为了和chatty说详细需求,打字效率相比之下太低了,信息简化之后反馈也会差 🤔
dream_C6FJ
dream_C6FJ
2024.8.18
实时语音没完全开放吗?我用Chat GPT app没到入口
Nixon_Hu
:
是的
Nixon_Hu
:
秋季开放完
4条回复
Kathyzzz
Kathyzzz
2024.8.06
有一次和GPT对话中,它提到了我工作的行业职位,自然的穿插到了提问中,把我吓一跳,我还在好奇它怎么知道的,才想起来自己之前提过一次,GPT的记忆比我的好
托马斯白
:
我一直认为记忆能力是个人助理和情感陪伴的必须品
Nixon_Hu
:
记忆功能是很有惊喜感的
Kathyzzz
Kathyzzz
2024.8.06
10:44 我经常用GPT练英语口语,真的很棒
Nixon_Hu
:
对,我第一次看到真人长期使用就是for口语练习
那现在担心的隐私,数据保护问题怎么办
Nixon_Hu
:
chatGPT 设置里可以选择这些数据不能用于训练,但也仅此而已
大概一两个月之前,国产的chattts效果已经非常震惊了
不过openai下场还是有点挤压垂域市场
Nixon_Hu
:
chattts 也很棒
羡羡_5mNI
羡羡_5mNI
2024.8.05
31:20 感觉GPT已经是我的一个情感陪伴了哈哈哈,我会跟他聊哲学聊生命的意义聊美术史聊怎么找工作,他还是我的导游、助教、心理医生...记得当时第一次用上语音功能的时候,我超级兴奋,给身边的朋友试用,大家都觉得GPT真是太迷人了🥰这可能就是科技改变生活的最好例子吧(但不知道为什么我还是喜欢4,我觉得4o有点太絮絮叨叨了)
Nixon_Hu
:
啊?你能听出4和4o的区别?厉害
GoSeedou:hello,我想问下你一般是在什么场景下用的语音交互呀?因为我感觉现在语音交互现在限制还太多,在太安静的地方像办公室图书馆也不太能用,在太吵的地方像公交地铁也不太能用
4条回复
之前在 B 站上看到 ChatGPT 讲海龟汤的视频就已经很震惊了。会烘托气氛、会突然兴奋,而且居然讲的比一般人都好
Nixon_Hu
:
啥叫海龟汤啊
杨不甜甜甜:好像是一种比较短的,有特定结构的谜题,up 主给 chatGPT 讲了一次规则,它就能自创新的海龟汤谜题了。视频在这:https://b23.tv/Qp4IsP2
3条回复
40:47 提到这个,催更苹果
Nixon_Hu
:
哈哈哈哈哈哈哈哈这也能
托马斯白
:
想听苹果的什么内容?
3条回复
GoSeedou
GoSeedou
2024.10.09
大家怎么看待无声语音交互,这会成为语音交互之后的下一代交互方式吗?毕竟这种交互方式所带来的私密性是传统语音交互完全没有的
Nixon_Hu
:
请教下什么叫做无声语音
修拉仙子
修拉仙子
2024.8.19
非常喜欢这一期的节目!很感谢主播在讨论中还会穿插讲解一些基础知识!
Nixon_Hu
:
感谢反馈!
大衛David
大衛David
2024.8.06
50:29 那国内的语音助手哪些是生成语音效果比较好的呀?有推荐吗?
Nixon_Hu
:
豆包,海螺AI
大衛David:56:12 谢谢,已经下载了
夏日妍妍
夏日妍妍
2024.9.10
13:11 很有帮助
32:19 chatgpt记忆
28:48 长文本变成对谈
托马斯白
托马斯白
2024.8.06
能够通过语音图灵测试的GPT4o会带来怎样的交互体验?实现如此震撼的语音交互体验背后的端到端原理是什么?为什么说即便不做升维,语音模态的质变也将带来AI应用的跨越鸿沟和爆发式增长?欢迎收听本期节目
Nixon_Hu
Nixon_Hu
2024.8.06
欢迎在评论区留言发表你使用 大模型AI对话 感受与看法。
羡羡_5mNI
羡羡_5mNI
2024.8.05
前排!
Nixon_Hu
:
来啦!请坐!