Vol.134 产业观察22｜AI硬件、智能耳机与潜艇反声纳：对话声智科技陈孝良

高能量

64分钟 ·1 个月前

10012

【本期课题】

AI硬件与声学发展。

【栏目介绍】

在《产业观察》这档专栏里，我们会为你厘清不同产业的历史沿革，希望能够从中找到一些底层的规律。虽然当下变化迭起，但是所有新风口都有迹可循，不同产业的发展其实也有很多相似之处。

【免责声明】

本节目的所有内容并非旨在提供任何形式的建议，包括但不限于投资、税收、会计或者法律上的建议。

【本期嘉宾】

陈孝良，声智科技创始人、董事长兼CEO。

【内容索引】

02:02 声学技术主要服务于国防军工，比如声呐探测是军工领域中声学的关键应用之一，相比于光和电磁波，声音可以在水中进行长距离传输且不快速衰减，具有不可替代的作用。

03:01 传声器（俗称麦克风）、扬声器等是声学的典型器件。Walkman、CD、MP3等是声学在空气声中的典型产品。

04:49 在每个科技关口，声学都是关键点之一。AI时代的兴起由声音开始，2010年苹果发布会将Siri带入大众视野，声学算法得到一次非常大的升级。

05:44 移动互联网巨头的发展共性：一类是交互形态的改变，输入法从PC端有键盘到手机端键盘地消失；另一类是新装的硬件产生了新数据，比如新装了摄像头，就产生了跟图片和视频相关的应用。

10:05 全球对未来的一个基本共识是：下一代的交互是基于声音的交互。我们还没有过渡到这个时代，是因为底层技术还未达到成熟的商业阶段。

11:26 声学从信号处理走向深度学习，最早应用于手机语音识别场景，但单纯依靠深度学习无法解决声学复杂场景要求的精确性问题，2011年亚马逊开始尝试利用新载体——智能音箱来进行探索和研究。

15:30 从麦克风阵列和声学的角度，如何看待和解决理想环境或非理想环境下的拾声问题？

18:18 唱歌时听到的自己的声音与回放时听到的声音有所不同，这是因为前者包含了空气传导（气导）和骨骼传导（骨导）的声音，而后者仅是通过空气传导录制的声音。

23:38 智能音箱爆火期间，声智科技实现了哪些结果和目标？

29:47 大家对语言处理的最大印象来自于GPT-4o的发布，如何看待GPT-4o？

30:52 智能语音技术接下来需要重点解决的是声纹的识别与分辨。

35:21 今天声智在用的语言模型是什么样的？在GPT-4o带来的IO转变下，声智做了哪些事情？

38:25 声智的AI耳机短时间内成为抖音爆款的主要原因是什么？

43:19 AirPods耳机VS骨传导耳机VS耳夹式耳机

45:53 中国新型消费电子产品的神奇市场定律：价格在200元以下的产品大家接受度较高，会愿意为了它的新奇而付费，同时可接受它具有一定的缺陷。

49:58 最顶级的航空耳机为何那么贵？

52:01 偏大众化的耳机在AI上能更多地承载什么类型的功能？

56:04 相较于耳机，助听器的技术难点是什么？

58:01 现在的“新老年人”，最不喜欢的就是戴上具有老年人标志的物品，所以只要把助听器做得像耳机，并且看起来时尚，肯定会得到老年人的青睐。

59:08 如何看待创业这8年的经历？

1:01:12 AI最终的应用落地肯定在消费，像是美国已经率先发布了AI手机，他们的商业落地已经非常清晰了，我们在这方面还需要继续打磨和验证。

1:03:12 从人类发展习惯来看，语言模型演进后，使得语音变成一个新的输入和输出形态，这个我是100%相信的。

【本期相关】

麦克风阵列，由一定数目的声学传感器组成，用来对声场的空间特性进行采用并处理的系统。进入“声控时代”，此项技术重要性尤为凸显，可以用来解决噪声抑制、鸡尾酒会效应等实际问题。

GPT-4o，OpenAI为聊天机器人ChatGPT发布的语言模型，可以实时对音频、视觉和文本进行推理，新模型使ChatGPT能够处理50种不同的语言，同时提高了速度和质量，可以在短至 232 毫秒的时间内响应音频输入，平均为 320 毫秒，与人类的响应时间相似。

语音端点检测，即从连续的语音流中检测出有效的语音段，包括两个方面，检测出有效语音的起始点即前端点，检测出有效语音的结束点即后端点。

I/O（Input/Output），指的是计算机与外部世界的通信方式。它涉及数据在计算机内部与外部设备之间的输入和输出。

【相关文章】

文字版内容请在峰瑞资本公众号查看。

【本期福利】

你最期待哪一种AI硬件产品？欢迎大家在评论区留言，我们将为留言最走心的三位用户送上声智科技的AI耳机各一份（评论截至2024年10月8日下午17点）。

【制作团队】

主理人：李翔、李丰

制作及统筹：张英海（13514156656）、峰小瑞（pr@freesvc.com）

如果你喜欢我们的节目，欢迎你分享到更多的地方，也欢迎你在我们的评论区留言交流。

展开Show Notes

峰小瑞

2024.9.20

你最期待哪一种AI硬件产品？欢迎大家在评论区留言，我们将为留言最走心的三位用户送上声智科技的AI耳机各一份。（评论截止2024年10月8日下午17点）🎁

媛子_

2024.9.20

听陈博士讲人类与声音打交道的故事，从潜艇反声纳到收音机，再到Walkman、CD、MP3，以及Siri和Echo智能音箱……这些或近或远的词，就这么被陈博士串起来了，非常有意思。站在当下，大模型来了，人类与声音的交互又在发生哪些变化，往未来看，AI耳机会成为新的入口吗？

Eason_Zlrp

2024.9.24

个人认为AI未来的发展还是以AI助手的方式展开的，大模型和硬件都会朝这个方向去整合。在使用场景上来说，AI眼镜是最有可能成为个人AI助手的产品，这里面技术整合的范围很广，软件、硬件、算法、图形图像、音视频等等。AI PC是办公层面最有可能且会首先量产的产品形态，但是我们弯道超车的机会不大，除非国产的操作系统和生态能迅速做起来。然后就是居家场景下的AI助手机器人，这个也是我们最应该发力的领域，毕竟做生态做产品一体化整合，国内大厂还是很拿手的。总之未来AI的发展肯定要聚焦具体的落地场景，给用户以触手可达且无缝衔接的交互体验。

峰小瑞:谢谢您的精彩留言，请添加峰小瑞（微信ID：freesfund）微信，添加时请备注您在小宇宙的用户名，峰小瑞来给您邮寄本次福利。

虫夏

2024.9.27

感谢陈博士完整解答了耳机音频发展史和技术路径难点，以前作为用户总是吐槽耳机不好，现在才知道原来也涉及软件技术门槛，音频工程师也是大有可为啊。Ai技术现在这么发达，塞进耳机里好像还不够，毕竟4o可以用视觉解读信息啊。看、听、说都集成到眼镜是不是更好一些？这也是有先驱探索过的可选路径，无论硬件软件还是市场都比较能接受。

chen1980:AI眼镜还需要点时间，最好的载体还需要大家思考，最好别是当前的形态

虫夏:那其次就是项圈了，戴脖子上很方便还能承受一定重量，摄像头、电池都能加，传声用耳机也方便。

共3条回复

外化而内不化

2024.10.02

最期待的是ai护理机器人，中国人口老龄化和少子化的趋势在未来必然需要大量的护工，而未来人口劳动力的下降大概率意味着人工成本过高，对于大多数老人而言考虑到自身财力，以及尽量少给儿女添麻烦的观念，只要AI护理机器人价格合适，需求势必旺盛。话说回来如果AI护理机器人真能实现，解决老人的部分后顾之忧，或许当下的年轻人将会更加敢于消费，而不是二三十岁就省钱规划未来的养老生活。

峰小瑞:谢谢您的精彩留言，请添加峰小瑞（微信ID：freesfund）微信，添加时请备注您在小宇宙的用户名，峰小瑞来给您邮寄本次福利。

薇_f330

2024.9.24

认真听完陈博士讲解，感到非常震撼和期待！AI技术的快速发展让耳机正逐渐成为智能生活的入口。特别是专门为关爱老年人设计的助听器，必将会给处在无声世界的老人带来福音！👍

TOP_aD4c

2024.9.22

未来的AI应用将更加注重环境感知与交互，所以集成了多种传感器（如视觉、听觉、触觉等）的AI芯片将非常值得期待。
记得原来看过一个电影（忘了叫什么）就是讲述类似的场景，人们在里面能像体验真实世界一样的玩游戏。

路易基111:头号玩家？ or 失控玩家？

chen1980:基于耳机的科幻电影比较经典的是Her

HD537105n

2024.9.21

我也是个电子产品爱好者。其实目前来看，短时间比较有希望的是智能眼镜，类似 meta 和雷朋合作的那种。因为可以集成拍照和语音交互，并且不会有太大的不舒适性。但是有没有可能做出一个智能的帽子。帽子的重量就可以比眼镜做的重一点，而且面积大，甚至可以加上薄膜太阳能电池。在此基础上可以集成拍照，语音交互，甚至脑电波部分读取(比如之前玩过的冥想时带的紧箍）。不知道在帽檐上可以有个折叠的镜片，起到简单的投影效果。总之由于帽子的体积和面积，可以集成的东西很多。虽然戴帽子的人数量并不多，但是如果做的足够时尚，可能也是可以改变大家的习惯，毕竟智能帽子戴出门的可能性比 VR 眼镜还是要容易一些。

chen1980:最棒的创意应该是脱离了我们当前认知的这些形态，不是眼镜，不是耳机也不是帽子？比如手机和PC以前也没有

HD537105n:我常年都会身边放五六个耳机，入耳式耳机基本上只能带不到一个小时，耳朵就会痒。现在大部分的耳机还是入耳式的，主要还是为了降噪。所以还是很期待半开放式的降噪能力。不知道丰叔试用和推荐的是直播间 199 还是 799/899 的款式？如果可以做到非入耳的降噪想过很好，我可以接受 1000 到 1500 的价位。下一步就是语义智能耳机了。就是大模型可以识别重要的语义和声音进行降噪，这样对于听障人士也是非常有用。

HD963702k

2024.9.25

28:53 漂亮有AI，也就这种有情怀的团队才有这种创新精神，投资要更有情怀了，现在就看内卷了但没有新东西

张菡小宇宙

2024.9.24

gpt3.5出来后，就一直在找同声传译耳机，尤其针对东南亚小语种的，市场上的产品用遍了都没有非常匹配的，结果这里199似乎就能解决，马上入手试试，感谢丰叔

路易基111

2024.9.23

AI硬件最早的理想模版是Google Glass，轻便的外形，幻想的功能，以及生不逢时的立项时间。最后果然失败了。
在这之后大部分的都是头戴式AR设备，直到vision pro的出现，体验上应该算有了巨大的提升。但仍然有价格高昂、佩戴不适的问题。
我心里理想的硬件设计应该是Goolge Glass这种轻便的设计+ 至少vision pro的使用体验。比如钢铁侠头盔里的JARVIS，赛亚人星球的战斗检测器。（目前还看不到希望）
现实一点比较期待apple 会不会出 apple vision，好奇其最终形态。

如果光是音频上去做AI，最终实现的场景也就是完全代替同声传译。大家都能做最终只是使用体验上的区别。今年的airpods4非入耳式降噪以及airpods pro2的助听器功能也是耳机创新的新方向。
找到差异项，凭借国内强大的供应链、以及迅速的迭代能力说不定在细分赛道又能诞生一个“韶音”。

姥姥王

2024.9.20

产品形态来看，有没有机会和眼镜进一步结合？

ifly1995

2024.9.25

搜了一圈各种评论，还真是大爆款，这么卷还能跑出来不容易了，提醒一下，爆发之后的竞争会更惨酷

Judith19

2024.9.24

喜欢这一集的最好行为就是去买一个试试！已下单

多余_OizQ

2024.9.25

听完讲解后，真的让我非常期待！AI硬件最早的理想模版是Google Glass，轻便的外形，幻想的功能。gpt3.5出来后，就一直在找同声传译耳机，市场上的产品试了好几款都没有非常合适的，但是现在听完讲解后，有了想入手的冲动。AI技术的快速发展让耳机正逐渐成为智能生活的入口。真是给大家带来了福音！

VanNessLEE

2024.9.25

Sound AI技术真心不错👍只是硬件产品做的确实有待提高，整体外观就是一个49的Monster 造型，用户心智会认为这种造型适合那个价格，我的意思是199可以做的更高级的工业设计与交互方式。做技术很牛逼，硬件产品还是得多跟深圳合作，取长补短，强强联合。

chen1980:非常感谢反馈建议，AI硬件新形态刚刚开始，需要大家一起努力奋斗

VanNessLEE:硬件的有些know how还是可以通过经验来解决的，有空来深圳约一个，老乡。

大姐_9VuO

2024.9.27

助听器是对老人真正友好的产品，为公司团队关爱老人的成就点赞👍

独步91

2024.10.05

喜欢听播客（7500多小时）而长时间戴耳机的我小板凳坐好了！

kappo

2024.10.03

越来越多人喜欢听播客，虽然不能取代视频类内容，但是声音类内容更能适应多种场景，自己也越来越喜欢听播客

sevene

2024.9.26

00:22简介
本期播客，丰瑞资本合伙人李丰邀请到声智科技CEO、创始人陈孝良博士，共同探讨了AI硬件领域的发展趋势。从声学技术、AI算法、芯片技术和应用场景等方面展开，两位嘉宾回顾了智能音箱的兴起和AI耳机的发展历程，并对未来AI硬件的发展方向进行了展望。此外，他们还探讨了如何将AI技术与潜艇反声纳技术结合，并分析了未来AI硬件领域的发展趋势和挑战。

摘要
1. 本期播客重点讨论了AI硬件领域的发展趋势，从智能音箱的兴起，到AI耳机的爆发，再到未来AI硬件的发展方向，嘉宾们分享了深刻的洞察和见解。
2. 同时，嘉宾们还探讨了AI技术在潜艇反声纳技术领域的应用前景，以及AI硬件领域面临的挑战，例如算法的改进、成本的控制、用户体验的提升等。
3. 最后，嘉宾们还展望了未来AI硬件领域的发展方向，认为AI技术将更深入地融入到人们的生活中，并将在语音交互、智能家居、智能穿戴等领域发挥更大的作用。
关键词
- AI硬件: 指搭载了人工智能技术的硬件设备，例如智能音箱、AI耳机等。
- 智能音箱: 指搭载了语音助手、音乐播放等功能的智能设备，可以与用户进行语音交互。
- AI耳机: 指搭载了主动降噪、语音识别等功能的智能耳机，可以为用户提供更丰富的听觉体验。
- 声学技术: 指研究声音的产生、传播、接收和处理的技术，例如语音识别、声场重建等。
- 芯片技术: 指用于生产芯片的技术，例如芯片设计、芯片制造等。
- 算法: 指用于解决特定问题的计算方法，例如语音识别算法、图像识别算法等。
- 用户体验: 指用户在使用产品或服务时的感受，例如产品的功能、易用性、舒适度等。
- 潜艇反声纳技术: 指利用声学技术来识别和躲避声纳的探测，提高潜艇的隐蔽性和作战能力。
- 大模型: 指包含大量参数的人工智能模型，可以用于处理复杂的自然语言理解和生成任务，例如GPT-4等。
- 语音交互: 指通过语音来与设备进行交互，例如用语音控制智能音箱、AI耳机等。

打开小宇宙查看更多精彩评论