02.为什么说下一个智能硬件可能没有屏幕？

在深圳，大模型掀起的AI硬件创业潮正席卷大厂、初创公司和一些中等规模的软件企业。

这些新玩家们相信，大模型带来了全新的人机交互体验，而一个完整的交互解决方案，一定是软、硬一体的。

刘轶就是其中的一位。在对谈中，他引用了一个巧妙比喻：大模型是水，本身无形，需要载体——这是他决定投身硬件产业的重要原因。

另一部分原因，则来自一个语音AI行业老兵的经验之谈。

刘轶的背景横跨学界、产业界。他是港科大首位智能语音语言领域的博士，国家重大人才计划特聘专家。在清华任教期间，他所在的国家实验室后来走出了炙手可热的大模型公司智谱。

2014年刘轶博士决定离开高校，在深圳创立了北科瑞声，为行业提供语音AI的系统与服务，并很快在医疗、政务、交通等领域找到了垂直细分市场的机会，但也仍然面临企服市场定制化程度高、软件付费意愿不强等问题。

十年后，带着在垂直领域积累下的行业优势，刘轶决定在大模型时代再次出发。手机之外，高度依赖语音交互、“受限显示”的口袋式硬件，被寄予厚望。

不过，如何在这样一个小小的终端上平衡性能、算力和功耗三者的关系，是摆在每个新玩家面前的共同挑战。刘轶认为，这也恰恰说明在端侧仍大有可为。

【本期课代表】

刘轶，北科瑞声创始人、董事长，国家重大人才计划特聘专家

【课代表观点】

01:05，语音AI技术的进展和局限

04:54，中文和阿拉伯语的识别理解，哪个更难？

06:30，更好的大模型一定出现在工业界

08:51，微调(SFT)不是每个人都该去做的

12:13，大模型是水，一定要有载体

14:06，做硬件就是一个权衡的过程

16:37，GPT-4o离产业化还有一段路

17:20，受限显示的小硬件是个趋势

【补充知识点】

ASR自动语音识别（Automatic Speech Recognition）基于深度学习技术，将音频中的语音转成文字。可用于识别多种音频编码格式、多种场景和不同长短的语音。广泛应用于智能客服质检、会议访谈转写、游戏语音输入、课堂内容分析等场景。TTS语音合成（Text-To-Speech）是一种将文本信息转化为自然语音输出的技术。通过TTS技术，我们可以让机器像人类一样开口说话，从而实现人机交互的语音输出。常见的应用有车载导航、电子书阅读、智能语音助手等。

【关于AI课代表】

「AI课代表」是一档传递大模型真知灼见和最佳实践的科技播客，由「声动活泼」参与策划和后期制作，现已在喜马拉雅、小宇宙、苹果podcast等平台上线。每期节目，我们会邀请在大模型领域有想法的开发者、技术专家和公司创始人担任“轮值课代表”，结合当下热门议题，分享他们最新鲜、最一手的观察和经验。如果你对我们的节目有什么建议，或者希望成为我们的下一位“课代表”，欢迎给我们写邮件。

邮箱：aipodcast2024@163.com

【制作团队】

策划：nada、大帅、Sue

后期：Jack 、迪卡