能操控电脑的 Computer Use 究竟是什么?万能胶水、旧世界操作员,还是无所不在的智能?编码人声

能操控电脑的 Computer Use 究竟是什么?万能胶水、旧世界操作员,还是无所不在的智能?

52分钟 ·
播放数669
·
评论数11

无论你是否熟悉 Function Call、Tool Use 或者 RPA,都可能刷到了 Claude 推出「能像人一样操控电脑」的 Computer Use 的新闻。

与 Claude 3.5 Sonnet 一同发布的 Computer Use,可模拟人与计算机的交互,执行如移动光标、点击按钮、输入信息等操作。

本期节目,我们请到了 Riffo 的陈春宇和 LLamaEdge 的 Michael Yuan。Riffo 能在桌面调用 LLM 能力,实现文件智能重命名和整理;而 LLamaEdge 则是一个轻型、本地化的 LLM Runtime。本期的主播白宦成也长期从事企业 AI 自动化产品设计。

三个开发者在 Computer Use 发布前,就长期从事 AI 自动化设计或端侧 AI 能力的探索。他们如何看待这一次 Claude 的新品发布? Computer Use 究竟是什么?又该如何「use」?期待这期节目对你有所启发。

本期播客录制于 RTE 2024 大会期间的「《编码人声》线下开放麦」,这是开放麦特辑的第一期。

本期嘉宾和主播

Michael Yuan,WasmEdge 维护者&Second State 创始人。
陈春宇,cofounder & CEO of GroupUltra,探索人与信息的互动。
白宦成,全流程工程师,AI 产品经理,RTE 开发者社区布道师,《编码人声》主播。

相关信息

RPA,即「机器人流程自动化」(Robotic process automation),是以软件机器人及人工智能为基础的业务流程自动化技术。
OpenAI Function callingClaude Computer use
嘉宾 Micheal Yuan 正在维护两个项目:WasmEdgeLLamaEdge
嘉宾陈春宇的项目:Riffo
嘉宾陈春宇用于搭建 AI 搜索服务的配置:Tavily+Jina

制作团队

后期 / 卷圈
监制 / 姝琦
产品统筹 / bobo
联合制作 / RTE开发者社区

关于「编码人声」

「编码人声」是由「RTE开发者社区」策划的一档播客节目,关注行业发展变革、开发者职涯发展、技术突破以及创业创新,由开发者来分享开发者眼中的工作与生活。
录制嘉宾覆盖信通院 & 科委专家、国内外资深投资人、VR/AR & 虚拟人 & AIGC 等新兴技术领域头部创业者、一线网红 & 硬核开发者、跨界画家 & 作家 & 酿酒师等。

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。

社区于 2023 年底正式启动了「主理人+工作组」的运营机制,并确认了社区的 3 位联合主理人 ——
· 零一万物 01.AI 开源负责人 @林旅强 Richard
· FreeSWITCH 中文社区创始人 @杜金房
· 库帕思 CTO @卢恒

本节目由津津乐道播客网络与 RTE 开发者社区联合制作播出。

RTE 开发者社区 | 公众号:RTE开发者社区 | 津津乐道播客官网 | 版权声明 | 评论须知 | 加入听友群

展开Show Notes
musi_ubrP
musi_ubrP
2024.10.30
“现在的前端都是vdom,不存在真实的dom”
musi_ubrP:麻烦了解一下vdom的前端框架以及这个术语再说吧,前端看到这句话真的就想笑
皮皮猪皮皮:传统的ai工具获取网页信息的方式和google的爬虫类似,目前它们其实都可以获取到spa页面里的数据,但对于需要登录才有数据的页面是无能为力的。利用类rpa结合ai的方案也许是可以解决这个问题的
6条回复
我贵姓张
我贵姓张
2024.10.31
点赞👍,可惜相关领域知识不足,有些英文术语不知道是什么🤣
傅丰元
:
我都把相关的重点词放到了播客介绍里,你看看有没有解释的?还有不懂的也可以标记一下时间点我听听
K_hSIu
K_hSIu
6小时前
29:16 这一点会不会反而有点本末倒置,因为如果需要专门做多模态才能理解的界面,那么为什么不直接读取代码,毕竟不需要多模态模型也能理解代码,还能理解的更好,如果对方不想你调用他的话也更不可能专门为了你多模态来优化吧🤔
HD711696k
HD711696k
2024.10.30
微软的recall路线是正确的,虽然国外用户对于隐私和安全的担忧非常严重,但这是趋势所在