DeepSeek 和 OpenAI 都没做到的技术,这群人先实现了编码人声

DeepSeek 和 OpenAI 都没做到的技术,这群人先实现了

55分钟 ·
播放数681
·
评论数7

目前,哪怕是 DeepSeek 或者 ChatGPT,都是人类说一句 AI 答一句。这种方式很「被动」,AI 只能等你来召唤它。

本期节目邀请到声网大语言模型实验室的李忻玮,和实时 AI 创业者史业民。围绕「更主动交互的 AI」的话题,分享包括语音、视频等多模态的主动交互,以及背后更具体的技术细节和路径。

如何让 AI 像自然对话那样,适时地主动说话、打断或是沉默?如何实现在你出门时候,AI 主动提醒你带伞?黄仁勋和李飞飞都在做的「世界模型」是什么?它将如何帮助 AI 理解和预测更真实的世界?期待本期节目对你有所启发。

【本期嘉宾和主播】

史业民:实时互动 AI 创业者,前智源研究院研究员。
李忻玮:声网大语言模型实验室高级研究员,RTE 开发者社区布道师,《从零开始学扩散模型》作者,Hugging Face 中文社区成员。
朱峰:「津津乐道播客网络」创始人,产品及技术专家。

线下活动推荐(含赠票活动)

Apple 生态爱好者们,LET’S VISION 2025 大会即将回归,将于「 2025 年 3 月 1 日至 2 日」在「上海浦东鲜花港」举行。本次大会将聚焦技术前沿、创意实践、资源共享和未来展望,为参与者提供与行业领袖深入交流的机会。通过 RTE 开发者社区专属优惠码「EDHls6n」或 URL 购票,享受 9 折优惠:hdxu.cn

RTE 开发者社区和 TEN Framework 也会在大会出现!欢迎报名工作坊(2 日下午):「『你好,贾维斯!』1 小时打造可语音操作电脑的 AI 助手」。


有奖互动:小宇宙留言区参与互动,赠送 2 张价值 699 元的工作坊门票(可同时参加展区和讲座)。

制作团队

后期 / 卷圈
监制 / 姝琦
产品统筹 / bobo
联合制作 / RTE开发者社区

关于「编码人声」

「编码人声」是由「RTE开发者社区」策划的一档播客节目,关注行业发展变革、开发者职涯发展、技术突破以及创业创新,由开发者来分享开发者眼中的工作与生活。
录制嘉宾覆盖信通院 & 科委专家、国内外资深投资人、VR/AR & 虚拟人 & AIGC 等新兴技术领域头部创业者、一线网红 & 硬核开发者、跨界画家 & 作家 & 酿酒师等。

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。

社区于 2023 年底正式启动了「主理人+工作组」的运营机制,并确认了社区的 3 位联合主理人 ——
· 零一万物 01.AI 开源负责人 @林旅强 Richard
· FreeSWITCH 中文社区创始人 @杜金房
· 库帕思 CTO @卢恒

本节目由津津乐道播客网络与 RTE 开发者社区联合制作播出。

展开Show Notes
朱峰
朱峰
2025.2.24
置顶
欢迎留言分享「有哪些目前 AI 未实现但你很需要的能力?」将抽取两位赠送 Let's Vision 2025 门票,价值 699 元。
momoSH
momoSH
2025.3.03
21:50 这段交互好有意思!什么时候可以实装啊
Junll
Junll
2025.3.03
请问这期节目提到的ai 模型面市了吗?
硕杨sxuya
硕杨sxuya
2025.2.27
“全双工” 还是 “全防攻”?
我贵姓张
我贵姓张
2025.2.27
AI主动帮我赚钱的能力很重要
sparky_cZXB
sparky_cZXB
2025.2.24
23:13 这个全双工交互有点意思
傅丰元
傅丰元
2025.2.24
史老师说的前台(实时互动+快思考)后台(思维链+Deep Search+慢思考)组合的方式蛮同意的。这块需要一些 multi-agent 的框架来支持。