02.为什么说下一个智能硬件可能没有屏幕?AI课代表

02.为什么说下一个智能硬件可能没有屏幕?

23分钟 ·
播放数5235
·
评论数9

在深圳,大模型掀起的AI硬件创业潮正席卷大厂、初创公司和一些中等规模的软件企业。

这些新玩家们相信,大模型带来了全新的人机交互体验,而一个完整的交互解决方案,一定是软、硬一体的。

刘轶就是其中的一位。在对谈中,他引用了一个巧妙比喻:大模型是水,本身无形,需要载体——这是他决定投身硬件产业的重要原因。

另一部分原因,则来自一个语音AI行业老兵的经验之谈。

刘轶的背景横跨学界、产业界。他是港科大首位智能语音语言领域的博士,国家重大人才计划特聘专家。在清华任教期间,他所在的国家实验室后来走出了炙手可热的大模型公司智谱。

2014年刘轶博士决定离开高校,在深圳创立了北科瑞声,为行业提供语音AI的系统与服务,并很快在医疗、政务、交通等领域找到了垂直细分市场的机会,但也仍然面临企服市场定制化程度高、软件付费意愿不强等问题。

十年后,带着在垂直领域积累下的行业优势,刘轶决定在大模型时代再次出发。手机之外,高度依赖语音交互、“受限显示”的口袋式硬件,被寄予厚望。

不过,如何在这样一个小小的终端上平衡性能、算力和功耗三者的关系,是摆在每个新玩家面前的共同挑战。刘轶认为,这也恰恰说明在端侧仍大有可为。

【本期课代表】

刘轶,北科瑞声创始人、董事长,国家重大人才计划特聘专家

【课代表观点】

01:05,语音AI技术的进展和局限

04:54,中文和阿拉伯语的识别理解,哪个更难?

06:30,更好的大模型一定出现在工业界

08:51,微调(SFT)不是每个人都该去做的

12:13,大模型是水,一定要有载体

14:06,做硬件就是一个权衡的过程

16:37,GPT-4o离产业化还有一段路

17:20,受限显示的小硬件是个趋势

【补充知识点】

ASR自动语音识别(Automatic Speech Recognition) 基于深度学习技术,将音频中的语音转成文字。可用于识别多种音频编码格式、多种场景和不同长短的语音。广泛应用于智能客服质检、会议访谈转写、游戏语音输入、课堂内容分析等场景。TTS语音合成(Text-To-Speech)是一种将文本信息转化为自然语音输出的技术。通过TTS技术,我们可以让机器像人类一样开口说话,从而实现人机交互的语音输出。常见的应用有车载导航、电子书阅读、智能语音助手等。

【关于AI课代表】

「AI课代表」是一档传递大模型真知灼见和最佳实践的科技播客,由「声动活泼」参与策划和后期制作,现已在喜马拉雅、小宇宙、苹果podcast等平台上线。每期节目,我们会邀请在大模型领域有想法的开发者、技术专家和公司创始人担任“轮值课代表”,结合当下热门议题,分享他们最新鲜、最一手的观察和经验。如果你对我们的节目有什么建议,或者希望成为我们的下一位“课代表”,欢迎给我们写邮件。

邮箱:aipodcast2024@163.com

【制作团队】

策划:nada、大帅、Sue

后期:Jack 、迪卡

展开Show Notes
黑咖黑咖
黑咖黑咖
2024.8.09
19:18 是的 不一定要替代手机 或许只是在人一天的某个时间段代替手机出现在个人设备中心上
Major陈
Major陈
2024.7.15
好喜欢这个节目和主持人的声音,很温柔
要有终端入口才是关键,证明你的软件
Celin_wDpz
Celin_wDpz
2024.6.20
请问有没逐字稿
nadanada_:可以关注AI课代表的公众号,我们会陆续更新文字稿
HD389760z
HD389760z
2024.6.20
目前来看好像眼镜是最合理的形态
张志衡
张志衡
2024.6.20
要发展AI硬件,首先得解决电池问题。没人想背个充电到处走
内容很棒,感觉确实可以更长😄
HD1652
HD1652
2024.6.20
AI硬件应该跳出手机的思路,做真正的AI native