编码人声:DeepSeek 和 OpenAI 都没做到的技术,这群人先实现了津津乐道

编码人声:DeepSeek 和 OpenAI 都没做到的技术,这群人先实现了

55分钟 ·
播放数2711
·
评论数16

目前,哪怕是 DeepSeek 或者 ChatGPT,都是人类说一句 AI 答一句。这种方式很「被动」,AI 只能等你来召唤它。

本期节目邀请到声网大语言模型实验室的李忻玮,和实时 AI 创业者史业民。围绕「更主动交互的 AI」的话题,分享包括语音、视频等多模态的主动交互,以及背后更具体的技术细节和路径。

如何让 AI 像自然对话那样,适时地主动说话、打断或是沉默?如何实现在你出门时候,AI 主动提醒你带伞?黄仁勋和李飞飞都在做的「世界模型」是什么?它将如何帮助 AI 理解和预测更真实的世界?期待本期节目对你有所启发。

【本期嘉宾和主播】

史业民:实时互动 AI 创业者,前智源研究院研究员。
李忻玮:声网大语言模型实验室高级研究员,RTE 开发者社区布道师,《从零开始学扩散模型》作者,Hugging Face 中文社区成员。
朱峰:「津津乐道播客网络」创始人,产品及技术专家。

线下活动推荐(含赠票活动)

Apple 生态爱好者们,LET’S VISION 2025 大会即将回归,将于「 2025 年 3 月 1 日至 2 日」在「上海浦东鲜花港」举行。本次大会将聚焦技术前沿、创意实践、资源共享和未来展望,为参与者提供与行业领袖深入交流的机会。通过 RTE 开发者社区专属优惠码「EDHls6n」或 URL 购票,享受 9 折优惠:hdxu.cn

RTE 开发者社区和 TEN Framework 也会在大会出现!欢迎报名工作坊(2 日下午):「『你好,贾维斯!』1 小时打造可语音操作电脑的 AI 助手」。


有奖互动:小宇宙留言区参与互动,赠送 2 张价值 699 元的工作坊门票(可同时参加展区和讲座)。

制作团队

后期 / 卷圈
监制 / 姝琦
产品统筹 / bobo
联合制作 / RTE开发者社区

关于「编码人声」

「编码人声」是由「RTE开发者社区」策划的一档播客节目,关注行业发展变革、开发者职涯发展、技术突破以及创业创新,由开发者来分享开发者眼中的工作与生活。
录制嘉宾覆盖信通院 & 科委专家、国内外资深投资人、VR/AR & 虚拟人 & AIGC 等新兴技术领域头部创业者、一线网红 & 硬核开发者、跨界画家 & 作家 & 酿酒师等。

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。

社区于 2023 年底正式启动了「主理人+工作组」的运营机制,并确认了社区的 3 位联合主理人 ——
· 零一万物 01.AI 开源负责人 @林旅强 Richard
· FreeSWITCH 中文社区创始人 @杜金房
· 库帕思 CTO @卢恒

本节目由津津乐道播客网络与 RTE 开发者社区联合制作播出。

展开Show Notes
朱峰
朱峰
2025.2.24
置顶
欢迎留言分享「有哪些目前 AI 未实现但你很需要的能力?」将抽取两位赠送 Let's Vision 2025 门票,价值 699 元。
李小卷
李小卷
2025.2.25
没听清那个词,全方宫?
风色_NMLH:全双工
李小卷:谢谢!
RookieStar
RookieStar
2025.2.25
26:27 Moshi是由法国的的人工智能研究实验室Kyutai推出的一款端到端实时音频多模态AI模型
Robert_Guo
Robert_Guo
2025.3.04
47:53 跟大家科普下,导盲犬看不见红绿灯,是红绿色盲。如果在路口有其他行人,可以跟随其他行人一同过马路。如果没有其他行人,导盲犬只能看车是否会冲过来。据了解到,现在的智能眼镜只能读出你问他的时候红绿灯的情况,如果你问的时候是绿灯,当你准备走马上变红,对我们的朋友是一个巨大的考验
22:37 这个demo表现很好哎!👍
独步91
独步91
2025.2.25
正在试用的我小板凳坐好了!
李小卷
李小卷
2025.2.25
24:52 没错!抢话很烦啊尤其是练英语口语的时候,还在组织语言呢就被插话,到后来就忘了该说什么了,只能一直嗯嗯啊啊,感觉很不好
很清晰
Faye_yu
Faye_yu
2025.2.25
1、AI Agent 个人认为还没有到无缝嵌入个人工作流的地步,毕竟我们选择任何一个自动化产品都是基于这个东西是不是好用,而不在于是不是 AI;第二个就是,AI 可以打败围棋天才,但是却没有办法自己帮我们洗碗,人类不屑一顾的事情 AI 也不见得做成。
倘若_
倘若_
2025.2.24
哇,这期好玩🤩
HD594383c
HD594383c
2025.2.24
理想同学app接入了deepseek联网的 不卡
豆包确实好玩
papersnake
papersnake
2025.2.23
目前流式对话也很卷,卷情感、方言、唱歌,国内用户量最大的 realtime 语音模型应该是1月豆包发的
HD815466j
HD815466j
2025.2.23
沙发