【关于播客】
欢迎大家一同加入出埃及记的旅程!关注底层逻辑,剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目,我们会邀请全球顶尖院校的博士生或初创公司的创始人,一起聊聊人工智能等计算机科学或其他交叉领域的最新动态,分享他们的研究工作和相关洞察。
欢迎大家订阅收听,和关注我们的同名微信公众号,追踪最新内容。
【关于本期】
AI领域近期最热的新闻之一莫过于5月中OpenAI发布GPT-4o和6月11日WWDC上苹果发布覆盖全产品线的生成式AI技术。相较于之前版本,最大的升级在于人机交互体验的改善。GPT-4o的特点可以被总结成三个方面:一是全模态交互,意味着它能够无缝处理文字、语音、图片和视频等多种输入模态,并能够灵活地输出各种模态的结果;二是实时响应,减弱甚至消除了以往大模型的延迟问题,实现了真人对话般的即时互动;三是情感识别与表达,不仅能够理解用户的情绪,甚至能够捕捉到用户的呼吸节奏,其输出内容的语气和情感表达也几乎与真人无异。GPT-4o设计的核心目的就是为了更接近人机交互的终极目标,使之成为像是在和真人交互一样的AI Agent。
在GPT-4o发布前一周多,我们正巧与两位HCI方向的博士生朋友,交流HCI领域的研究工作者是怎样看待ChatGPT和Agent的产品形态和未来方向,当前的AI与人类交互有哪些问题,以及Agent的未来会是怎样?
【嘉宾介绍】
- 刘星宇:加州大学洛杉矶分校HCI lab博士生,师从Xiang Anthony Chen。本科毕业于卡耐基梅隆大学统计、机器学习与HCI专业。研究方向曾经关注无障碍设计,近期聚焦人与包括chatbot/agent在内的人工智能的交互。曾获亚马逊博士奖学金、ACM UIST 最佳论文奖、两项ACM CHI最佳论文荣誉奖、ED Rice 杰出硕士生奖和加州大学洛杉矶分校杰出硕士论文研究奖。曾在Meta Reality Lab、Google和Snap Research进行研究实习。
- 马家驹:斯坦福大学计算机科学系博士生,师从Maneesh Agrawala教授。本科毕业于布朗大学计算机科学与罗德岛设计学院工业设计双学位。研究方向聚焦于构建全过程协助用户的创意支持工具。研究工作得到了布朗媒体创新研究所和斯坦福大学研究生奖学金的支持。曾在 Facebook AI、LinkedIn、Deeplearning.ai 和 Learnable.ai做产品设计实习,以及Adobe Research做研究实习。
【开降落伞】
HCI领域介绍
03:22 HCI领域是在做什么?当下有哪些比较重要的问题?
Human-AI Interaction
AI模型的难用之处
06:25 ChatGPT难用之处
08:21 AI模型“黑箱”的本质以及可解释性
12:05 ChatGPT的输入和输出存在限制
“难用”的解决方案
14:46 如何解决ChatGPT难用的地方?
17:19 Human-AI Interaction的特殊使用场景
18:22 AR/VR与LLM结合
22:00 以Copilot为代表的定制化模型的交互易用性
23:54 人类加入大模型的interaction loop
26:42 类比自动驾驶,人参与进interaction Loop是为了提升整体的效率或体验感,还是当下技术不够成熟的妥协?
29:28 人类和机器共同协作(Mixed-initiative Interaction)
LLM Agent
40:52 Agent和LLM Agent
42:44 关于用户交互的辩论:是agent还是直接操控(direct manipulation)?
51:28 人类如何和LLM agent交互?如何创造一个personalized agent?
展望
54:36 未来的研究方向会怎样聚焦或调整吗?Multi-agent和HCI的关联是什么样的?agent-extreme的尽头是否是AGI替代人类?
【制作团队】
主理人:
- 刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。
- 徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,incoming Meta 机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型之间的共通之处。
制作:
- 黄芊雅:复旦大学新闻学院在读
- 王翌婷:复旦大学计算机科学技术学院在读
【音乐版权】
- Time by Pold soundcloud.com|Free Download / Stream: tinyurl.com|Promoted by Audio Library tinyurl.com
- Look At The Clouds by Declan DP|Free Download / Stream: bit.ly|Promoted by Audio Library bit.ly