【本期课题】
AI硬件与声学发展。
【栏目介绍】
在《产业观察》这档专栏里,我们会为你厘清不同产业的历史沿革,希望能够从中找到一些底层的规律。虽然当下变化迭起,但是所有新风口都有迹可循,不同产业的发展其实也有很多相似之处。
【免责声明】
本节目的所有内容并非旨在提供任何形式的建议,包括但不限于投资、税收、会计或者法律上的建议。
【本期嘉宾】
陈孝良,声智科技创始人、董事长兼CEO。
【内容索引】
02:02 声学技术主要服务于国防军工,比如声呐探测是军工领域中声学的关键应用之一,相比于光和电磁波,声音可以在水中进行长距离传输且不快速衰减,具有不可替代的作用。
03:01 传声器(俗称麦克风)、扬声器等是声学的典型器件。Walkman、CD、MP3等是声学在空气声中的典型产品。
04:49 在每个科技关口,声学都是关键点之一。AI时代的兴起由声音开始,2010年苹果发布会将Siri带入大众视野,声学算法得到一次非常大的升级。
05:44 移动互联网巨头的发展共性:一类是交互形态的改变,输入法从PC端有键盘到手机端键盘地消失;另一类是新装的硬件产生了新数据,比如新装了摄像头,就产生了跟图片和视频相关的应用。
10:05 全球对未来的一个基本共识是:下一代的交互是基于声音的交互。我们还没有过渡到这个时代,是因为底层技术还未达到成熟的商业阶段。
11:26 声学从信号处理走向深度学习,最早应用于手机语音识别场景,但单纯依靠深度学习无法解决声学复杂场景要求的精确性问题,2011年亚马逊开始尝试利用新载体——智能音箱来进行探索和研究。
15:30 从麦克风阵列和声学的角度,如何看待和解决理想环境或非理想环境下的拾声问题?
18:18 唱歌时听到的自己的声音与回放时听到的声音有所不同,这是因为前者包含了空气传导(气导)和骨骼传导(骨导)的声音,而后者仅是通过空气传导录制的声音。
23:38 智能音箱爆火期间,声智科技实现了哪些结果和目标?
29:47 大家对语言处理的最大印象来自于GPT-4o的发布,如何看待GPT-4o?
30:52 智能语音技术接下来需要重点解决的是声纹的识别与分辨。
35:21 今天声智在用的语言模型是什么样的?在GPT-4o带来的IO转变下,声智做了哪些事情?
38:25 声智的AI耳机短时间内成为抖音爆款的主要原因是什么?
43:19 AirPods耳机VS骨传导耳机VS耳夹式耳机
45:53 中国新型消费电子产品的神奇市场定律:价格在200元以下的产品大家接受度较高,会愿意为了它的新奇而付费,同时可接受它具有一定的缺陷。
49:58 最顶级的航空耳机为何那么贵?
52:01 偏大众化的耳机在AI上能更多地承载什么类型的功能?
56:04 相较于耳机,助听器的技术难点是什么?
58:01 现在的“新老年人”,最不喜欢的就是戴上具有老年人标志的物品,所以只要把助听器做得像耳机,并且看起来时尚,肯定会得到老年人的青睐。
59:08 如何看待创业这8年的经历?
1:01:12 AI最终的应用落地肯定在消费,像是美国已经率先发布了AI手机,他们的商业落地已经非常清晰了,我们在这方面还需要继续打磨和验证。
1:03:12 从人类发展习惯来看,语言模型演进后,使得语音变成一个新的输入和输出形态,这个我是100%相信的。
【本期相关】
- 麦克风阵列,由一定数目的声学传感器组成,用来对声场的空间特性进行采用并处理的系统。进入“声控时代”,此项技术重要性尤为凸显,可以用来解决噪声抑制、鸡尾酒会效应等实际问题。
- GPT-4o,OpenAI为聊天机器人ChatGPT发布的语言模型,可以实时对音频、视觉和文本进行推理,新模型使ChatGPT能够处理50种不同的语言,同时提高了速度和质量,可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,与人类的响应时间相似。
- 语音端点检测,即从连续的语音流中检测出有效的语音段,包括两个方面,检测出有效语音的起始点即前端点,检测出有效语音的结束点即后端点。
- I/O(Input/Output),指的是计算机与外部世界的通信方式。它涉及数据在计算机内部与外部设备之间的输入和输出。
【相关文章】
文字版内容请在峰瑞资本公众号查看。
【本期福利】
你最期待哪一种AI硬件产品?欢迎大家在评论区留言,我们将为留言最走心的三位用户送上声智科技的AI耳机各一份(评论截至2024年10月8日下午17点)。
【制作团队】
主理人:李翔 、李丰
制作及统筹:张英海 (13514156656)、峰小瑞(pr@freesvc.com)
如果你喜欢我们的节目,欢迎你分享到更多的地方,也欢迎你在我们的评论区留言交流。