编码人声:GPT-4o 只是对话式 AI 的冰山一角,背后隐藏了哪些新机会?津津乐道

编码人声:GPT-4o 只是对话式 AI 的冰山一角,背后隐藏了哪些新机会?

52分钟 ·
播放数2421
·
评论数18

GPT-4o 只是「对话式 AI 」(conversational AI) 的冰山一角。

同期发布的 Project Astra 还演示了对话式 AI 和可穿戴硬件结合的可能。

更早些,hume.ai 上线了能解读 53 种不同情绪的「共情语音接口」(EVI),发布了一档实时交互式 AI 播客。

ChatTTS 让更多人体验到会笑会停顿,几乎与真人无异的语音合成技术。

投资机构 a16z 近期发布报告,创立了「Voice AI Agent」的投资新赛道并高呼:「是时候重新发明通话了!」

技术上实现 《Her》 的「最后一步」是什么?创业者如何利用现有技术能力满足用户?哪些场景最可能诞生真实付费需求?

本期节目,嘉宾将从模型开发者、实时互动从业者、AI 陪伴玩具创业者的不同视角,探讨「对话式 AI」的边界,分享实践中看到的新机会。

有嘉宾说:人工智能实现 human like 的最后一步,是允许 AI 与人类拥有平等地位:如果你希望 AI 像人,那就请允许 AI 可以随时地回应你也打断你,聆听你也忽略你……

如果是这样,你愿意吗?

【本期主播与嘉宾】

张栋,SpeechGPT 作者,SpeechGPT 是一个端到端的语音模型。

王乐,Folotoy 创始人,AI 陪伴对话玩具创业者。

李忻玮,声网 AI 算法工程师,《从零开始学扩散模型》作者,Hugging Face 中文社区成员。

白宦成,全流程工程师,AI 产品经理,RTE 开发者社区布道师,《编码人声》主播。

【听友福利】

欢迎在评论区留言,分享你对 GPT-4o 的看法,或者对最有潜力的对话式 AI 场景的预测。我们将抽出一位送出魔性的 Folotoy 仙人掌 AI 玩具一份(价值 398 元)。

【相关信息】

一起探索人和 AI 的新连接方式!RTE 开发者社区将在 6 月 22 日、23 日,联合 Founder Park 在北京举办线下的 AGI Playground 活动,边玩边探索 AGI 和 RTE 实时互动的新可能。加入社区微信群,还可以提前获取活动消息,抽免费活动门票。关注「RTE 开发者社区」微信公众号,在后台回复「小助手」即可入群。

【制作团队】

后期 / 卷圈
监制 / 姝琦
产品统筹 / bobo
联合制作 / RTE开发者社区

关于「编码人声」

「编码人声」是由「RTE开发者社区」策划的一档播客节目,关注行业发展变革、开发者职涯发展、技术突破以及创业创新,由开发者来分享开发者眼中的工作与生活。
录制嘉宾覆盖信通院 & 科委专家、国内外资深投资人、VR/AR & 虚拟人 & AIGC 等新兴技术领域头部创业者、一线网红 & 硬核开发者、跨界画家 & 作家 & 酿酒师等。

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。

社区于2023年底正式启动了「主理人+工作组」的运营机制,并确认了社区的 3 位联合主理人 ——
· 零一万物 01.AI 开源负责人 @林旅强 Richard
· FreeSWITCH 中文社区创始人 @杜金房
· 小红书音视频架构负责人 @陈靖

本节目由津津乐道播客网络与 RTE 开发者社区联合制作播出。

RTE 开发者社区 | 公众号:RTE开发者社区 | 津津乐道播客官网 | 版权声明 | 评论须知 | 加入听友群

展开Show Notes
置顶
欢迎在评论区留言,分享你对 GPT-4o 的看法,或者对最有潜力的对话式 AI 场景的预测。我们将抽出一位送出魔性的 Folotoy 仙人掌 AI 玩具一份(价值 398 元)
付胜昔
付胜昔
2024.6.12
我也观看了发布会,会后感觉大受震撼最令我印象深刻的是 GPT-4o的多语言对话能力可能会让人们思考如何在保持文化和语言多样性的同时,利用AI技术促进全球交流和理解,这也可以应用到很多领域,比如这期的ai早教玩具,GPT-4o的发布可能会激发人们对未来技术发展的无限遐想,但是我觉得同时也需要思考如何引导技术发展,使其服务于人类的长远利益。只能说对话式ai的未来发展前途无量吧
1991outsider:👍🏻
津津乐道小助手
:
恭喜您获得本期节目的互动礼品——『Folotoy 仙人掌 AI 玩具一份』 请您准备好下述资料: 1. 小宇宙的「个人-个人主页」页面截图 2. 本次中奖信息留言截图 3. 您的快递地址(仅限中国境内)、收件人、电话号码 4. 中奖的当期节目信息 发送至邮箱:gift@dao.fm 本条抽奖信息有效期截至2024年7月18日。 我们收到信息后会尽快安排寄出礼品,谢谢您对编码人声节目的支持🥰!
9条回复
30:17 其实留学中介水平还不如ai😅
FIT
FIT
2024.6.12
1. 从发布会视频抽取的音频看,平均延迟大约900毫秒,远高于其官宣的 320毫秒 2. 使用过程持续计算是合理的,实际实现上可以在 listen 时结合 VAD 进行 chunk 输入降低计算频率
就本着玩儿的心态,或者说最基本的利用ChatGPT去翻译翻译段落,总结总结文章的人来说,确实是省了很多时间。但在对话方面,我感觉ChatGPT应该还是一个工具,如果它能打断我,可能我这话还没有说完,它已经产生解读了会误解,像我们中华文化博大精深它可能理解错了意思反而要花时间告诉它你错了,再就是它可能没有一个准确的知识库?会陷入你纠正它说错的地方,它就按照你说的说了,没有它自己的判断力,再告诉它原本的回答它又认可了原本的回答,我可能只是想有个参考意见,它反复横跳的回答反而会莫名其妙(捂脸)
Kesen
Kesen
2024.6.13
但是 4o 发布时是有演示打断式对话的,所以可以认为 用户的话是实时输送给 LLM,而不需要一个回车来判断
对我最大的作用就是拍照让他帮我算卡路里和成分啥的,方便减肥
38:33 24小时待机,那消耗也太大了,本地和云端,对机器的要求……
CC023
CC023
2024.6.12
谢谢。