随着苹果重新夺回全球市值第一的宝座,人们对几天前WWDC全球开发者大会的态度,似乎也发生了微妙变化。
在这场大会上,苹果花了一半的时间谈论AI。新版Siri的可贵之处,或许并不是因为它对新近多模态能力的全盘吸收,而是它可以在APP之间“穿梭”,了解一个更完整的“你”。
外界备受关注的大模型合作信息,苹果一方面确认了会接入Open AI的GPT-4o,另一方面,它也公开了三层大模型架构,云、端协同,自研与三方协作,给硬件厂商打了个样。
本期节目,我们请到了OPPO智能语音助手小布的业务负责人万玉龙,他有过操作系统、基础大模型的研发经验,同时也是个智能硬件“行家”。
在这次对谈中,他从苹果发布会聊起,提醒我们思考一个“无处不在”的 Siri 给硬件厂商带来哪些启发,又对隐私提出了哪些挑战;
他还非常清晰地拆解了端侧和云上的大模型是如何实现协同的,端侧更快、云上更慢其实是一种过时的说法,同样的,端侧部署更安全,也是个需要被挑战的观念。
在讲起乔布斯去世前力推siri上线,让更多人至少从理想维度上对更自然的人机交互有所期待——也非常令人动容。
【本期课代表】
OPPO智能语音助手“小布”业务负责人,万玉龙
【课代表观点】
-1:34 为什么说Siri升级是苹果发布会的小惊喜
-3:29 终端厂商要明白自己的优势,不能跟着APP跑偏了
-8:42 谁更懂用户,谁才能在大模型上做出差异化
-10:52 苹果在人机交互上一直是行业的标杆
-12:47 乔布斯去世前力推Siri,让人们对更自然的人机交互有了期待
-14:16 相比文字,语音才是更自然的交互方式
-17:50 端侧大模型的重要作用:先把任务分流
-20:51 效果和服务效率是手机厂商筛选三方大模型的标准
-24:39 大模型时代,“端快云慢”是一个伪命题
-27:17 端侧并不必然“更安全”,云的安全性在移动互联网时代已被验证
-29:58 大模型的商业模式可能接近搜索引擎
-35:20 手机厂商通常会选择自研和三方大模型并行
-36:45 手机就像脑机的一个器官,短时间内难以取代
【补充知识点】
APP intents:使用 苹果App Intents 框架后,开发者可以通过编程的方式,将 App 的内容和功能加入 Siri 和“快捷指令”App 等系统服务中。
GUI:Graphical User Interface,即图形用户界面,指采用图形方式显示的端侧操作用户界面。
Function Call:Function Call 是 GPT API 中的一项新功能。它可以让开发者在调用 GPT-4 和 GPT-3.5-turbo 模型时,描述函数并让模型智能地输出一个包含调用这些函数所需参数的 JSON 对象。这种功能可以更可靠地将 GPT 的能力与外部工具和 API 进行连接。
OCR:Optical Character Recognition,即文字识别
【关于AI课代表】
「AI课代表」是一档传递大模型真知灼见和最佳实践的科技播客,由「声动活泼」参与策划和后期制作,现已在小宇宙、喜马拉雅、网易云音乐、苹果podcast等平台上线。
每期节目,我们会邀请在大模型领域有想法的开发者、技术专家和公司创始人担任“轮值课代表”,结合当下热门议题,分享他们最新鲜、最一手的观察和经验。
如果你对我们的节目有什么建议,或者希望成为我们的下一位“课代表”,欢迎给我们写邮件。
邮箱:aipodcast2024@163.com
【制作团队】
策划:nada、大帅
后期:Jack 、迪卡