EP96 AI Agent:炒作还是革命?从实践+技术角度扒一扒

EP96 AI Agent:炒作还是革命?从实践+技术角度扒一扒

65分钟 ·
播放数5861
·
评论数18

本期聊聊AI Agent,节目内容涉及有function calling机制、MCP协议、Workflow与Agent的关系、AI Agent的挑战与解决方案等核心内容。你将了解到AI Agent的本质, 帮助大家理解其核心原理。

更多内容信息和时间线参考下文的硬地笔记,欢迎收听本期节目。

本期赞助

Podwise.ai - Podcast knowledge at 10x speed 🚀

Apple Store 下载👉🏻 apps.apple.com

硬地笔记

00:00:49 AI Agent 概念的兴起与定义

00:10:38 LLM如何通过Function Calling解决“没有手和脚”的难题?

00:17:10 Function Calling 的成功率与优化

00:24:43 Function Calling 与 MCP 协议的比较

00:31:08 在AI开发中,你偏好Workflow还是Agent?

00:41:31 AI Agent会变得越来越专业吗?未来怎么看?

00:57:05 小团队如何在AI应用中选对模式?

提到的一些名词:

  • AI Agent: 人工智能领域中的一个概念,指能够自主执行任务的智能体。它能够感知环境,根据目标制定计划,并采取行动以达到目标,无需持续的人工干预,不同于传统的 AI 助手或聊天机器人。
  • AutoGPT: 一个基于 GPT 模型的开源 AI Agent 框架。它允许用户创建能够自主执行一系列任务的 AI Agent,例如搜索信息、编写代码或进行网络交互。
  • Manus: 一个 AI Agent 应用,旨在提供一个通用的 AI 助手功能。它能够根据用户的指令自主执行任务,并以可视化的方式展现其工作流程,但其通用性及成本受到讨论。
  • AutoGen: 微软开发的一个 AI Agent 框架,与 AutoGPT 类似,允许用户创建和管理 AI Agent 以执行各种任务。它提供了更结构化的框架和工具,方便开发者构建复杂的 AI 系统。
  • LLM (大型语言模型): 指能够处理和生成人类语言的大型神经网络模型。例如,ChatGPT 和 Gemini 都属于 LLM,它们是许多 AI Agent 的核心技术。
  • Function Calling: 大型语言模型的一种能力,允许模型调用外部函数或工具来执行特定任务。这使得 AI Agent 能够与外部世界交互,获取信息或执行操作,例如获取天气信息或搜索网页。
  • Model Context Protocol (MCP): 一种用于 AI Agent 与外部工具交互的协议。它定义了标准化的通信方式,方便不同 AI Agent 和工具之间的互操作性,提高了代码的可复用性和效率。
  • Workflow: 一种通过代码定义的、可控的、步骤化的任务执行流程。在 AI 应用开发中,Workflow 常用于构建可靠且可预测的 AI 系统,与更强调自主性的 AI Agent 形成对比。
  • 牛鞭效应: 供应链管理中的一个概念,指需求波动在供应链上传递时被放大的现象。在 AI Agent 和 Workflow 中,也可能出现类似的 “信息损失” 现象,导致最终结果与预期不符。
  • AGI (通用人工智能): 指拥有与人类同等或超越人类智能水平的人工智能。在讨论 AI Agent 的通用性时,AGI 常被提及,作为衡量 Agent 能力的终极目标。
  • Context Caching: 一种优化大型语言模型使用效率的技术。通过缓存上下文信息,可以减少重复计算,降低成本并提高模型的响应速度,从而缓解信息损失问题。

欢迎关注我们

  • 知识星球: t.zsxq.com
  • 官网: hardhacker.com
  • 小手册: book.hardhacker.com
  • 用爱发电不容易,请我们喝咖啡☕️: afdian.net
  • 公众号/小红书: 硬地骇客
  • 商务合作: hardhackerlabs@gmail.com
  • 加入「硬地骇客」会员服务,即可在会员专属的微信群与其他朋友一起畅所欲言,成为会员也是对我们持续更新最大的鼓励!


展开Show Notes
GoneB0y
GoneB0y
2025.3.18
23:14 func-call或者说tool-use本质还是在做落域选择,所以颗粒度很重要。实践中10个左右的func的选择基本能保证准确率可用,大于20后质量下降就会很厉害。有一个trick就是先做大的意图识别,然后按落域动态注册func到sys-prompt中。这样会保证相对精准。但如果同一个domain下有很多相似func,也会容易混淆。另外,LLM还会解决一个槽位(slot)动态收集的任务,这个在传统AI应用里是比较机械实现的。
zeroan:受教了
RookieStar
RookieStar
2025.3.18
02:51 讲到AI造概念,有个不同视角的看法:过去软件工程领域主要面向机器,所以相关概念会专业又精准;现在AI时代机器越来越像人,相关概念更容易破圈,推广到更大范围的受众。人,我们自己都没有研究清楚,自然相关的概念辨析难度就上来了
一啸
:
这个很赞同👍
Magodo
Magodo
7天前
感觉说了半天没啥干货。。。
Ian言
Ian言
2025.3.21
关于Agent自动化问题,也欢迎收听这期节目#83 从Manus看AI Agent的自动化悖论
方进
方进
2025.3.18
39:03 这是我听过的最好的关于 agent 的workflow和自主规划的说明所以说呢,各有千秋,也算不上高级不高级,取决于你的目标,你想要的是确定性的结果,还是那种你能给你带来surprise的那种
德式锅包肉:同意
NgShawn
NgShawn
6天前
对agent的认知不透彻,甚至对manus的评价也只针对它本身,没有做一点市场调研,相比竞品2美元居然还觉得贵。
stonesun
stonesun
10天前
质量确实非常高
TerryZhou
TerryZhou
2025.3.19
48:29 燃烧更多token。稍微再泛化一些,换个角度:其实人类一直在找能更大规模动用能源的手段。同样一条信息,从纸张记录,到搜索集群,再到万卡大模型,用能源换时间/效率。从走路到马车到汽车,都是产生位移,用能源换时间/效率。
当llm需要大力出奇迹的时候,agent就倾向小而美。当llm开始卷性价比了,agent就开始大力出奇迹了。
stewart831
stewart831
2025.3.18
53:41 这段挺有意思,被看见从而被感知从而自己才得到了老板的上帝视角,才能觉得你真的多了个能干活的小弟😂,那这个智能体才能被人化
stewart831:另外还有一点不同的是,以前程序的输出基本不可读,现在 LLM 可读性就大大不同了,这也是为什么公开是个好事,毕竟给你看一堆看不懂的东西你也不好受
musi_ubrP
musi_ubrP
2025.3.17
32:17 workflow也不能很好的解决稳定性,只要你其中的一环依赖于LLM的输出,举个例子,你让LLM给你输出一个yaml格式,但是它给你返回了一个json代码块,这就是意料之外的输出,你可以通过代码判断出现异常进行重试,但这并不能证明通过workflow可以解决LLM的幻觉
0xSaito
:
嗯,这块想表达的是说 workflow 可以解决调用步骤的稳定性。 至于输出的问题,在多步骤条件下的信息损失,谁都不能解决。
古一_s29U
古一_s29U
2025.3.18
Mcp好像跟模型是否有function call能力没有关系吧
ll_3ZN1
ll_3ZN1
2025.3.18
05:45 无语。。。。