Agent入门和通信模式

1. 什么是Agentic AI

智能体AI工作流是一个基于大语言模型的应用程序执行多个步骤以完成任务的过程。这个过程最终会产生好得多的工作输出。

2. 和工作流的区别

工作流具有预定的代码路径，并被设计成按一定的顺序运行。
代理是动态的，并定义自己的过程和工具使用。

3. Agent 模式

四个关键设计模式是：反思、工具使用、规划以及多智能体协作

3.1 反思 Reflection

要求LLM检查自己的输出，或者引入一些外部信息源，例如运行代码并查看是否生成任何错误消息，并以此作为反馈再次迭代
设置一个专门的批评智能体。这个批评智能体本质上就是一个被赋予了特定指令的LLM，比如：“你的角色是代码评审员，这是一段旨在完成某个任务的代码，请仔细检查代码”等等。第二个批评智能体或许会指出错误或运行单元测试。通过让两个模拟智能体（每个智能体只是一个被赋予特定角色的LLM）进行交互，它们可以来回讨论、迭代，从而获得更好的输出

3.2 工具使用 tool-use

3.2.1 介绍

LLM能够决定使用哪些工具（即调用哪些函数），这使得模型能够完成更多任务

示例：

3.2.2 基本原理

如今的大语言模型都经过直接训练（Function Calling）来使用工具

在大语言模型被直接训练使用工具之前，或者有些大语言模型还不支持Function Calling ，那如何做呢.

编写如下系统提示词：“你可以访问一个名为 getCurrentTime 的工具。要使用它，我希望你输出以下文本：先输出全大写的 FUNCTION，然后输出 getCurrentTime。如果我看到这个文本（全大写的 FUNCTION 后面跟着 getCurrentTime），我就知道你想要我为你调用 getCurrentTime 函数”

3.3.3 MCP 介绍

MCP（模型上下文协议）旨在为LLM提供更多上下文和工具支持，MCP试图解决的痛点：不在重复造轮子

现在已有许多MCP客户端。这些是需要访问工具或数据的应用程序，以及服务端（通常是软件封装器）

3.3 planning 规划

3.3.1 介绍

在规划模式中，LLM决定它需要采取哪些行动序列，以便能够以正确的顺序执行正确的步骤序列来完成该任务。这样一来，不再是开发者预先硬编码步骤序列，而是实际上让LLM来决定需要采取哪些步骤

能够进行规划的智能体更难控制

示例：

生成一张图片，图片中一个女孩正在看书，并且她的姿势与图片中一个男孩的姿势相同，然后用你的声音描述这张新图片。

模型可以自动决定，为了执行此任务，它首先需要找到一个姿势判定模型来确定男孩的姿势。接着进行图像姿态处理，生成一个女孩的图像并进行图文处理，最后进行语音合成

3.3.2 基本原理

生成计划

基本工作流程是让LLM写出一个多步骤计划，然后让其依次执行计划中的每个步骤，并附带一些关于任务是什么、有哪些可用工具等适当的上下文信息。

示例：

Q: 你们有100美元以下的圆形太阳镜现货吗?

为此，我们将为大型语言模型提供一套工具，使其能够获取商品描述（例如查找不同眼镜是否为圆形）、检查库存、处理商品退货（虽然此查询不需要，但处理其他查询时需要）、获取商品价格、查看过往交易记录、处理商品销售等等。

为了让LLM找出响应客户请求的正确工具使用序列，您可能会编写如下提示：您可以访问以下工具（并向其描述LLM拥有的六个甚至更多工具中的每一个），然后指示其返回执行用户请求的逐步计划。

针对这个特定查询，LLM可能输出的一个合理计划可能是：首先使用”获取商品描述”工具检查不同描述以找到圆形太阳镜，然后使用”检查库存”工具查看它们是否有库存，最后使用”获取商品价格”工具检查库存结果中哪些价格低于100美元。

在LLM输出这个包含三个步骤的计划后，我们可以将第一步的文本（即此处用红色标出的文本）传递给LLM，可能附加上关于可用工具、用户查询等额外背景信息，让LLM执行第一步。在这种情况下，希望LLM会选择调用”获取商品描述”工具来获取相应的商品描述，该第一步的输出可以让其筛选出哪些是圆形太阳镜。然后，将这第一步的输出与第二步的指令（即我在此处用蓝色标出的指令）一起传递给LLM以执行计划的第二步。希望它随后会获取我们在上一步找到的两副圆形太阳镜并检查库存，而第二步的输出则用于另一次LLM调用，您将第二步的输出以及第三步的操作指令传递给LLM，让它获取商品价格。最后，将此输出反馈给LLM进行最后一次调用，以生成给用户的最终答案。