网站外链建设周期短网址在线生成
2026/5/21 17:13:21 网站建设 项目流程
网站外链建设周期,短网址在线生成,创业平台网,企业网站四大类型本文全面解析LLM智能体的核心架构#xff0c;详细探讨记忆系统(短期/长期记忆)、工具使用增强能力、规划与推理技术#xff0c;以及多智能体协同框架。通过60可视化图表#xff0c;深入浅出地展示了LLM Agent如何通过外部工具、记忆系统和规划能力实现增强型大模型详细探讨记忆系统(短期/长期记忆)、工具使用增强能力、规划与推理技术以及多智能体协同框架。通过60可视化图表深入浅出地展示了LLM Agent如何通过外部工具、记忆系统和规划能力实现增强型大模型最终实现更高自主性的智能交互系统。LLM 智能体LLM Agents正变得日益普及似乎正在取代我们所熟悉的“常规”对话式大语言模型。这些强大的功能并非轻易就能实现需要多个组件协同工作。本文包含超过60个自定义的可视化图表您将借此探索LLM智能体领域、其主要组成部分并探讨多智能体Multi-Agent框架。1、什么是 LLM Agent要理解 LLM Agent 是什么我们首先需要探索 LLM 的基本能力。传统上LLM 做的仅仅是下一个 token 的预测。通过连续采样多个 token我们可以模拟对话并利用 LLM 对我们的查询提供更全面的回答。然而当我们继续对话时任何 LLM 都会显示其主要缺点即如果不依赖对话系统将整个对话历史作为上下文传入模型那么模型就不会记得对话内容。LLM 不擅长的任务还有很多包括基础的数学运算如乘法和除法这是否意味着 LLM不太行当然不是LLM 不需要具备所有能力因为我们可以通过外部工具、记忆和检索系统来弥补其不足。通过外部系统LLM 的能力可以得到增强。Anthropic 将这称为增强型大模型The Augmented LLM。例如当面对数学问题时LLM可能决定使用适当的工具计算器。那么这种增强型 LLM就是 Agent 吗严格来说并不是但似乎也有那么一点儿神似…让我们从Agent的定义开始一个 agent 是任何可以被视为通过传感器感知环境并通过执行器作用于该环境的实体。—— Russell Norvig《人工智能一种现代方法》(2016)Agent 与环境交互通常有几个重要组件•环境— Agent 交互的世界•传感器— 用于观察环境•执行器— 用于与环境交互的工具•效应器— 决定如何从观察转化为行动的大脑或规则这个框架适用于与各种环境交互的各类 agent如与物理环境交互的机器人或与软件交互的 AI agent。这里有没有想到我们之前文章中关于RL 的基础概念Agent 的概念基本是相同的。我们可以稍微概括这个框架使其更适合增强型LLM。使用增强型LLMAgent 可以通过文本输入观察环境因为LLM通常是文本模型并通过使用工具如网络搜索执行特定操作。为了选择采取哪些行动LLM Agent 拥有一个至关重要的组件规划能力。而拥有规划能力则意味着 LLM 需要能够通过思维链等方法进行推理与思考。利用这种推理行为LLM Agent 将规划出必要的行动步骤。这种规划行为使 Agent 能够理解情况LLM、规划下一步规划、采取行动工具并跟踪已采取的行动记忆。根据系统的不同可以获得具有不同自主程度的LLM Agent。一个系统越自主 LLM 就越能决定系统的行为方式。在文章接下来的内容中我们将通过 LLM Agent 的三个主要组件记忆、工具和规划讨论各种自主行为方法。2、LLM Agent的记忆LLM 是健忘的系统或者更准确地说与它们交互时根本不执行任何记忆功能。例如当你向LLM提出一个问题然后重开一个对话询问另一个问题时它不会记得之前的问题。我们通常将此称为短期记忆也称为工作记忆它作为近期即时上下文的缓冲区。这包括 LLM Agent 最近采取的行动。然而LLM Agent 还需要跟踪可能数十个步骤而不仅仅是最近的行动。这被称为长期记忆因为 LLM Agent 理论上可能需要记住数十甚至数百个步骤。让我们详细了解一下这几种为 LLM 提供记忆能力的技巧。短期记忆实现短期记忆的最直接方法是使用模型的上下文窗口即 LLM 可以处理的 token 数量。上下文窗口通常至少为 8192 个token有时甚至可以扩展到数十万个 token.大型上下文窗口,可用于将完整的对话历史作为输入 prompt 的一部分进行跟踪。只要对话历史适合 LLM 的上下文窗口这种方法就能有效模拟记忆。但是这并非真正记住对话而是在告诉LLM这个对话是什么。对于上下文窗口较小的模型或者当对话历史较大时我们可以使用另一个LLM来总结迄今为止发生的对话。通过持续总结对话我们可以保持较小的对话规模。这将减少 token 数量同时只跟踪最重要的信息。长期记忆LLM Agent 的长期记忆包括需要长期保留的 Agent 过去的行动空间。行动空间指的是 Agent 过去所有的操作、决策和互动记录而不仅仅是静态的数据或信息。实现长期记忆的常见技术是将所有先前的交互、行动和对话存储在外部向量数据库中。要构建这样的数据库首先将对话嵌入到能够捕捉其含义的数值表示中。构建数据库后我们可以嵌入任何给定的提示并通过比较提示嵌入与数据库嵌入来找到向量数据库中最相关的信息。这种方法也就是检索增强生成Retrieval-Augmented GenerationRAG。长期记忆还可以涉及保留来自不同会话的信息。例如你可能希望 LLM Agent 记住它在以前会话中所做的任何研究。不同类型的信息也可以与不同类型的存储记忆相关联。在心理学中有许多类型的记忆可以区分但在《Cognitive Architectures for Language Agents》论文将其中四种与LLM Agent 相关联。1. Working Memory工作记忆• 人类示例购物清单。人类大脑用工作记忆来暂时存放、操作当前需要使用的信息比如你在逛超市时脑海里记着要买的东西。• 代理示例Context上下文。在LLM Agent中工作记忆可以理解为模型在一次对话或推理过程中需要临时“装载”的上下文信息用于实时生成回复或执行操作。2. Procedural Memory程序性记忆• 人类示例系鞋带。人类的程序性记忆是对“如何做一件事”的技能或步骤的记忆例如骑自行车、打字等这些行为一旦学会就可以相对自动地执行。• 代理示例System Prompt系统提示。对于LLM Agent而言“程序性记忆”可以视作模型在执行任务时所依据的固定指令或规则。它规定了模型在面对某些输入时需要如何去执行、遵循哪些步骤或约束。3. Semantic Memory语义记忆• 人类示例狗的品种。语义记忆是关于世界的通用知识、事实和概念不依赖个人的具体经历比如知道“巴黎是法国的首都”。• 代理示例User Information用户信息。对于LLM Agent来说语义记忆中可以包括用户的偏好、历史对话中的关键信息、外部知识库中的事实等。这些事实类信息是与特定事件无关的通用知识。4. Episodic Memory情景记忆• 人类示例7岁生日。情景记忆是对个人经历的记忆包含时间、地点、人物等具体情境。• 代理示例Past Actions过去行为。在LLM Agent中这部分对应代理在与用户或环境交互中所做出的具体操作或决策的历史记录帮助代理回溯和利用过去的经历来影响当前或未来的决策。这种区分有助于构建代理框架。语义记忆关于世界的事实可能存储在与工作记忆当前和最近情况不同的数据库中。3、LLM Agent的工具-Tools工具工具允许给定的 LLM 与外部环境如数据库交互或使用外部应用程序如运行自定义代码。工具通常有两种用途**获取数据**以检索最新信息;采取行动如设定会议或订购食物。要实际使用工具LLM 必须生成符合给定工具 API 的文本。我们通常期望生成可以格式化为 JSON 的字符串以便它能够轻松地输到代码解释器中。注意这不仅限于JSON我们也可以在代码本身中调用工具。你还可以生成 LLM 能直接使用的自定义函数比如基本的乘法函数。这通常被称为函数调用- function calling。如果提示词足够准确一些 LLM 可以使用任何工具。工具使用是大多数当前 LLM 都具备的能力。访问工具的更稳定方法是通过微调 LLM稍后会详细介绍。如果代理框架是固定的工具可以按照特定顺序使用或者 LLM 可以自主选择使用哪种工具以及何时使用。LLM 调用序列的中间步骤会被反馈回 LLM 以继续处理。可以认为LLM Agent本质上是 LLM 调用的序列但具有自主选择行动/工具等的能力。Toolformer工具使用是增强LLM能力并弥补其不足的强大技术。因此关于工具使用和学习的研究工作在过去几年中迅速增加。从《Tool Learning with Large Language Models: A Survey》论文中截取并注释的图片。随着对工具使用的日益关注AgenticLLM 预计将变得更加强大。这些研究不仅包括提示 LLM 使用工具还特别针对工具使用对模型进行训练。最早采用这种技术之一被称为 Toolformer这是一个训练用来决定调用哪些 API 以及如何调用的模型。它通过使用[and]token来指示调用工具的开始和结束。当给定一个提示例如5乘以3等于多少它开始生成 token 直到达到[token。之后它继续生成 token 直到达到→这表示 LLM 停止生成 token。然后工具将被调用输出将被添加到目前为止生成的 token 中。]符号表示 LLM 现在可以在必要时继续生成。Toolformer通过生成包含大量工具使用示例的数据集来训练模型。对于每种工具人工创建的 few-shot 提示会引导模型生成相应的使用示例。基于工具使用的正确性、结果、损失减少对输出进行过滤。最终的数据集用于训练LLM 遵循这种工具使用格式。自 Toolformer 发布以来出现了许多令人兴奋的技术如可以使用数千种工具的 LLMToolLLM或可以轻松检索最相关工具的LLMGorilla。无论如何大多数当前的 LLM2025年初都已经被训练为通过 JSON 生成正如我们之前所见轻松调用工具。模型上下文协议MCP工具是代理框架的重要组成部分使 LLMs 能够与世界交互并扩展其能力。然而当存在多种不同API时启用工具使用变得麻烦因为任何工具都需要• 手动跟踪并输入到LLM中• 手动描述包括其预期的JSON schema• 每当API发生变化时手动更新为了使工具在任何代理框架中更容易实现Anthropic 开发了Model Context Protocol (MCP)。MCP为天气应用和 GitHub 等服务标准化了 API 访问。它由三个组件组成• MCP Host宿主 — LLM 应用程序如 Cursor负责管理连接;• MCP Client客户端 — 维护与 MCP 服务器的 1:1 连接;• MCP Server服务器 — 向 LLMs 提供上下文、工具和功能;例如假设你希望某个 LLM 应用程序总结你的代码仓库中最新的5个提交。MCP Host与 MCP Client一起会首先调用 MCP Server 询问哪些工具可用。LLM 接收这些信息后可能会选择使用某个工具。它通过 Host 向 MCP Server发送请求然后接收结果包括所使用的工具。最后LLM 接收结果并能够解析出回答给用户。这个框架通过连接到任何 LLM 应用程序都可以使用的 MCP Servers使创建工具变得更加简单。因此当你创建一个与 Github 交互的 MCP Server时任何支持 MCP 的LLM 应用程序都可以使用它。4、LLM Agent的规划工具使用允许 LLM 增强其能力。它们通常通过类 JSON 请求进行调用。但在代理系统中LLM 如何决定使用哪个工具以及何时使用呢这就是规划planning发挥作用的地方。LLM Agents 中的规划涉及将给定任务分解为可执行的步骤。这种规划使模型能够迭代地反思过去的行为并在必要时更新当前计划。要在LLM代理中实现计划能力让我们首先看看这种技术的基础即推理能力。推理Reasoning规划可执行步骤需要复杂的推理行为。因此LLM 必须能够展示这种行为然后才能进行任务规划的下一步。推理型LLM是那些倾向于在回答问题前先思考的模型。这里对推理-reasoning和思考-thinking这两个术语使用得比较宽松因为我们可以讨论这是否真的类似于人类思考或者仅仅是将答案分解为结构化步骤。这种推理行为大致可以通过两种选择来实现微调LLM或特定的提示工程prompt engineering。通过提示工程我们可以创建 LLM 应遵循的推理过程示例。提供示例也称为少样本提示few-shot prompting是引导 LLM 行为的一种优秀方法。这种提供思考过程示例的方法被称为思维链Chain-of-Thought它能够实现更复杂的推理行为。思维链也可以在没有任何示例零样本提示zero-shot prompting的情况下实现只需简单地说明让我们一步步思考。在训练 LLM 时我们可以给它提供足够数量包含思考类示例的数据集或者 LLM 可以发现自己的思考过程比如使用强化学习。DeepSeek-R1是一个很好的例子它使用奖励机制来引导思考过程的使用。推理与行动-Reasoning and Acting在LLM中启用推理行为很好但这并不一定使其能够规划可执行的步骤。迄今为止我们关注的技术要么展示推理行为要么通过工具与环境交互。例如思维链Chain-of-Thought纯粹专注于推理。最早将这两个过程结合起来的技术之一被称为 ReActReason and Act。ReAct通过精心设计的提示工程来实现这一点。ReAct提示描述了三个步骤•思考Thought- 关于当前情况的推理步骤•行动Action- 要执行的一系列行动例如使用工具•观察Observation- 关于行动结果的推理步骤提示本身相当直接LLM使用这个提示可作为系统提示使用来引导其行为在思考、行动和观察的循环中工作。它会一直保持这种行为直到某个行动指示返回结果。通过对思考和观察的迭代LLM 可以规划行动观察其输出并相应地进行调整。因此与那些预定义固定步骤的代理相比这个框架使 LLMs 能够展示更加自主的代理行为。反思Reflecting没有人甚至采用 ReAct 的LLM能在每个任务上都表现出色。失败在所难免关键是从中反思以推动成长。这个过程在 ReAct 中缺失而这正是 Reflexion 发挥作用的地方。Reflexion是一种使用语言强化来帮助代理从先前失败中学习的技术。该方法假设三个LLM角色•执行者Actor— 根据状态观察选择并执行行动。我们可以使用思维链或ReAct等方法。•评估者Evaluator— 对执行者产生的输出进行评分。•自我反思Self-reflection— 反思执行者采取的行动和评估者生成的评分。添加了内存模块来跟踪行动短期和自我反思长期帮助 Agent 从错误中学习并识别改进的行动。一种类似但更优雅的技术被称为SELF-REFINE其中反复执行精炼输出和生成反馈的行动。同一个LLM负责生成初始输出、精炼后的输出和反馈。有趣的是这种自我反思行为无论是Reflexion还是SELF-REFINE都与强化学习非常相似在强化学习中基于输出质量给予奖励。5、Multi - Agent协同我们之前探讨过的单一 Agent 存在一些问题工具太多可能导致选择困难上下文变得过于复杂并且某些任务可能需要更专业化的处理。因此我们可以考虑使用多智能体Multi-Agent框架这类框架由多个 Agent 组成每个 Agent 都有自己的工具、记忆与规划能力它们之间能够相互交互并与环境产生互动。这些多智能体系统通常由专门的智能体组成每个智能体拥有自己的工具集并由一个主管Supervisor来进行管理。主管负责协调智能体之间的通信并将特定任务分配给专业化的智能体。每个 Agent 可能配备不同类型的工具并可能拥有不同的记忆系统。实际上已有数十种多智能体架构它们的核心通常包括以下两个组件• 智能体初始化Agent Initialization—— 如何创建个体专门的智能体• 智能体编排Agent Orchestration—— 如何协调所有智能体接下来我们将探索一些有趣的多智能体框架并重点分析这些组件是如何实现的。交互式人类行为模拟或许最具影响力、也相当酷的多智能体论文之一就是《生成式智能体交互式人类行为模拟》Generative Agents: Interactive Simulacra of Human Behavior。在这篇论文中作者创造了一种计算软件智能体能够模拟可信的人类行为他们称之为生成式智能体Generative Agents。每个生成式智能体都拥有独特的个性配置文件这使它们能够表现出独特的行为并促使更有趣、更具动态性的互动产生。每个智能体在初始化时都具备三个模块记忆、规划和反思这与我们之前探讨过的 ReAct 和 Reflexion 核心组件非常相似。记忆模块是这个框架中最重要的组件之一。它存储着规划与反思行为以及到目前为止发生的所有事件。当智能体需要采取下一步行动或回答问题时它会检索记忆并根据记忆内容的时效性、重要性和相关性进行评分将得分最高的记忆提供给智能体。这些模块协同工作使智能体能够自由地进行行动并彼此互动。因此这一框架的智能体编排较少因为它们没有具体的目标。这篇论文中有许多精彩的信息片段但我想特别强调其评估指标。该评估主要使用了智能体行为的可信性作为指标由人工评估员对智能体进行评分。该评估展示了观察、规划与反思对于生成式智能体表现的重要性。正如之前所述没有反思行为的规划是不完整的。模块化框架无论你选择哪种框架创建多智能体系统这些框架通常由多个要素组成包括智能体的配置文件、对环境的感知、记忆、规划以及可用的行动。用于实现这些组件的热门框架包括 AutoGen、MetaGPT 和 CAMEL。然而每个框架处理智能体间通信的方式略有不同。例如在 CAMEL 中用户首先提出问题并定义 AI 用户AI User和 AI 助理AI Assistant的角色。AI 用户角色代表人类用户并引导整个过程。随后AI 用户与 AI 助理相互协作通过交互来解决问题。这种角色扮演的方法实现了智能体之间的协作交流。AutoGen 和 MetaGPT 的通信方法虽然有所不同但本质上都是基于这种协作性质的通信。智能体可以相互交流以更新自身状态、目标以及下一步行动。过去一年尤其是最近几周这些框架呈现出爆发式的增长。随着这些框架不断成熟与发展2025 年将是令人无比期待的一年AI时代未来的就业机会在哪里答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具到自然语言处理、计算机视觉、多模态等核心领域技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。掌握大模型技能就是把握高薪未来。那么普通人如何抓住大模型风口AI技术的普及对个人能力提出了新的要求在AI时代持续学习和适应新技术变得尤为重要。无论是企业还是个人都需要不断更新知识体系提升与AI协作的能力以适应不断变化的工作环境。因此这里给大家整理了一份《2025最新大模型全套学习资源》包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等带你从零基础入门到精通快速掌握大模型技术由于篇幅有限有需要的小伙伴可以扫码获取1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。5. 大模型行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。为什么大家都在学AI大模型随着AI技术的发展企业对人才的需求从“单一技术”转向 “AI行业”双背景。企业对人才的需求从“单一技术”转向 “AI行业”双背景。金融AI、制造AI、医疗AI等跨界岗位薪资涨幅达30%-50%。同时很多人面临优化裁员近期科技巨头英特尔裁员2万人传统岗位不断缩减因此转行AI势在必行这些资料有用吗这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。大模型全套学习资料已整理打包有需要的小伙伴可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询