模板网站合同2023年推广网站
2026/4/25 22:00:22 网站建设 项目流程
模板网站合同,2023年推广网站,wordpress问答模块,ic电子网站建设agent系统#xff1a;架构、应用与评估全景综述 原创 无影寺 AI帝国 2026年1月9日 22:05 广东 背景与核心问题 基础模型已使自然语言成为计算的实用接口#xff0c;但大多数现实任务并非单轮问答。这些任务涉及从多个来源收集信息、随时间维护状态、在工具间进行选择#…agent系统架构、应用与评估全景综述原创 无影寺 AI帝国2026年1月9日 22:05广东背景与核心问题基础模型已使自然语言成为计算的实用接口但大多数现实任务并非单轮问答。这些任务涉及从多个来源收集信息、随时间维护状态、在工具间进行选择以及在延迟、权限、安全和成本等约束下执行多步骤操作。论文指出agent通过将基础模型与执行循环相结合来弥补这一差距该循环能够观察环境、规划、调用工具、更新记忆并验证结果。换言之agent不仅是文本生成器更是将意图转化为在现实世界软件仓库、浏览器、企业系统或物理机器人中执行程序的控制器。论文认为纯对话系统在实际场景中常因幻觉、缺乏接地和无法执行或验证操作而失败。工具增强和检索增强设计通过将声明绑定到证据、使中间产物可检查来提高可靠性。模块化工具路由如MRKL风格通过将语言理解与专用工具分离、强制执行可审计的结构化接口来进一步改善治理。[Figure 1: agent概览及agent执行循环推理、工具和记忆] 该图提供了agent主要组件和执行循环的高层视觉概览。agent的重要性与技术趋势论文指出agent在当前时代尤为重要原因有三(1) 任务范围正从写作辅助扩展到工作流自动化——编码agent端到端解决问题网络agent在变化条件下操作真实网站企业助手在策略约束下协调多步骤操作(2) 部署日益交互化和长周期化小错误会累积非确定性使可重复性复杂化这推动了验证循环和基于轨迹的评估(3) 安全和安保压力上升——提示注入、不可信检索内容和产生副作用的工具需要超越最终响应的纵深防御对齐和护栏。[Figure 2: 以agent为中心的AI范式嵌入工具和环境交互循环的模型] 该图总结了以agent为中心的范式这一范式推动了后续讨论的架构和评估选择。使实用agent系统成为可能的技术趋势包括基础模型提供强泛化、指令遵循和涌现的上下文学习能力对齐和偏好优化如RLHFReinforcement Learning from Human Feedback基于人类反馈的强化学习改善可用性并减少有害行为工具调用通过模式和API将语言转化为可执行操作检索和记忆将决策建立在外部证据和持久状态上推理-行动链将深思熟虑与环境交互交织以改善接地并从失败中恢复多模态感知通过将语言建立在视觉输入上将操作空间扩展到GUI、文档和具身场景。当前差距与挑战尽管进展迅速论文指出agent系统在规模化的可靠性、可重复性和治理方面仍然受限。长周期任务放大累积错误非确定性采样、工具变化使评估和调试困难。以工具为中心的agent还引入新的安全风险不可信的检索内容和提示注入可操纵工具使用产生副作用的操作需要比纯文本审核更强的约束。系统级权衡——自主性与可控性、延迟与可靠性、能力与安全——在不同领域和部署场景中尚未被充分理解。自主agent范式LLM与VLM作为策略核心LLM(Large Language Model大语言模型)是现代agent的主要策略核心它们将异构上下文指令、检索文档、工具输出和内部记忆映射到决策计划、工具调用或自然语言操作。前沿规模模型展现出强大的指令遵循和上下文学习能力无需重新训练即可快速引导能力。然而LLM本身并非天然接地没有外部证据和可执行检查它们可能产生看似合理但错误的陈述。这推动了以工具为中心和以检索为中心的agent设计其中模型是可信工具和数据源的协调器。论文强调一个重要转变能力提升越来越多来自系统设计而非仅仅更大的骨干网络。现代部署将LLM视为预算循环内的规划器/控制器agent受时间、令牌、工具调用和允许副作用的显式限制约束仅在任务困难或有风险时动态分配思考深思熟虑。VLM(Vision-Language Model视觉语言模型)通过将决策建立在图像、屏幕、文档和具身观察上来扩展这一范式。对比式和指令调优的VLM提供从像素到令牌的稳健接口使agent能够操作GUI截图、阅读图表和表单并将操作与视觉状态对齐。agent Transformer定义论文将agent Transformer定义为嵌入结构化控制循环的基于Transformer的策略模型具有到以下组件的显式接口(1) 来自环境的观察(2) 记忆短期工作上下文和长期状态(3) 具有类型化模式的工具(4) 在副作用发生前检查提案的验证器/评论器。具体而言agent Transformer可由元组 A (π_θ, M, T, V, E) 描述其中πθ是Transformer策略M是记忆子系统T是工具集V是验证器/评论器集E是环境。在迭代t时执行循环如下进行(1) agent从环境E收集观察ot(2)从M检索相关记忆m_t(3) 使用策略π_θ基于(ot, mt)提出候选操作a_t(4) 使用V验证a_t(5) 在T中执行选定的工具调用更新环境E和记忆M以进行下一步。[Figure 3:agentTransformer抽象具有到记忆、工具、验证器和环境的显式接口] 该图说明了agentTransformer抽象强调到记忆、工具、验证器和环境的显式接口。这一抽象统一了几种突出的agent模式RAG(Retrieval-Augmented Generation检索增强生成)通过使检索成为一等工具和记忆操作将策略建立在外部证据上ReAct通过在深思熟虑令牌和工具调用之间交替来形式化推理和行动的交织MRKL风格系统将任务路由到专用工具评论器/反思机制如Reflexion添加内部反馈通道以减少累积错误基于搜索的深思熟虑Tree-of-Thoughts思维树将规划视为探索操作候选空间多agent框架以多个通过消息通信的策略实现相同抽象。agent Transformer构建实践构建agentTransformer的常见方法从选择有能力的骨干模型开始然后通过接口约束它定义工具模式输入/输出、强制执行允许列表、创建一小组规范操作模板搜索、检索、执行、提交、请求澄清。工具模式通过将开放式文本转换为类型化操作来减少脆弱性并在执行前启用自动参数验证。控制循环设计方面最小循环是检索上下文→规划→通过工具行动→验证→更新记忆→重复这与ReAct和反思模式紧密对齐。对于更难的任务添加深思熟虑深度候选操作的树式搜索、自一致性重运行以及检查策略违规、缺失证据或不安全副作用的显式评论器。论文强调轨迹优先的数据飞轮在现实环境中运行agent记录完整轨迹提示、工具调用、工具输出和结果并持续挖掘失败以进行针对性改进。另一个新兴最佳实践是显式分离规划与执行规划器提出具有显式约束和成功标准的计划而执行器在更严格的工具权限和验证下执行计划。agent学习agent学习跨越堆栈的多个层次(1) 学习策略和机制(2) agent系统(3)agent基础模型。[Figure 4: 跨机制、系统和基础模型的agentAI学习概览] 该图概述了agent系统的学习堆栈连接机制、系统级工程和基础模型适应。强化学习RL(Reinforcement Learning强化学习)自然适合agent行为因为它直接优化交互下的长周期回报。对于agentRL的吸引力在于它优化行为而非单步预测它可以学习何时收集信息、何时行动以及如何在多步轨迹中从错误中恢复。[Figure 5: agent策略和控制器的强化学习流程] 该图提供了强化学习如何融入agent决策和控制的示意图。然而在工具丰富的现实场景中RL面临特定于agent工作流的瓶颈稀疏或延迟的奖励、昂贵的展开因为工具调用和环境步骤成本高以及限制探索的安全约束。这推动了更安全和更数据高效的机制如离线RL和约束/安全RL。模仿学习IL(Imitation Learning模仿学习)在专家演示可用时提供获得胜任行为的实用途径。对于agent演示通常是结构化轨迹观察、中间推理、工具调用和结果的序列。[Figure 6: 从演示和交互轨迹进行模仿学习] 该图总结了从演示和交互轨迹获取agent行为的模仿学习流程。最简单的形式——行为克隆——训练策略以匹配专家操作。但纯克隆容易受累积错误影响与专家分布的小偏差可能导致策略没有指导的未见状态。DAgger等数据集聚合方法通过迭代收集学习策略诱导状态上的纠正演示来解决这一问题。传统RGB组件[Figure 7: 传统RGB组件基于规则的策略、图规划器和行为树] 该图突出显示了在agent系统中仍然重要的传统规则/图/行为树组件作为基线和安全接口。在以LLM为中心的agent之前许多生产系统依赖传统RGB组件基于规则的策略if-then决策逻辑、基于图的规划器任务图、工作流DAG、FSM和行为树风格控制分层、反应式策略。这些方法仍然有用因为它们可预测、可检查且易于治理。现代堆栈因此采用混合方式LLM提出目标、解释或候选操作而RGB组件强制执行安全、时序和领域规则。上下文学习上下文学习通过提示和示例实现快速任务适应无需参数更新。对于agent这包括工具模式、规划格式和交互协议的演示。[Figure 8: 通过提示、示例和操作模式进行agent上下文学习] 该图描绘了上下文学习作为教授agent协议的实用机制。CoT(Chain-of-Thought思维链)提示改善多步推理和分解直接转化为agent中更好的规划和工具选择。ReAct风格提示通过将推理绑定到工具使用来操作化上下文学习。然而上下文学习对agent有众所周知的系统级失败模式上下文增长增加成本/延迟长提示可能稀释关键约束检索文本可能引入覆盖策略的提示注入指令。agent系统中的优化[Figure 9: agent的优化问题] 该图提供了agent设计的优化导向视图突出显示在约束编排策略下可靠性、延迟和成本之间的核心权衡。agent性能既是系统优化问题也是建模问题可靠性、延迟和成本由编排策略塑造多少次调用、哪些工具、多少验证、何时回溯。验证和反思循环通过检查操作和根据工具输出或检测到的不一致修订计划以额外计算换取更低的失败率。这与测试时计算扩展密切相关系统增加受控深思熟虑步骤的数量重排序、自一致性、回溯而非增加模型大小。agent系统模块与基础设施agent模块在系统层面学习包括agent如何被模块化为具有明确契约的组件。常见模块包括LLM策略核心、检索/记忆、规划器、工具路由器和评论器/验证器。从学习角度看模块化改变了核心模型必须学习的内容。例如如果检索被委托给工具模型学习查询制定而非记忆事实如果存在验证器模型可以学习提出候选并依赖检查来拒绝不安全操作。记忆模块对长周期agent尤为核心情景记忆发生了什么、语义记忆事实和程序记忆技能支持超越原始上下文窗口的连贯性。agent基础设施[Figure 10: 安全部署的agent基础设施沙箱、模式、权限和日志] 该图勾勒了安全和可重复agent部署所需的基础设施层。基础设施决定agent能否在真实环境中安全且可重复地运行。关键元素包括沙箱化工具执行、模式验证、身份/权限强制执行、审计日志、缓存和可观察性提示、工具调用和中间状态的轨迹。agent基础模型[Figure 11: agent基础模型用于工具使用和规划的预训练和微调] 该图总结了预训练和微调选择如何塑造agent基础模型中的工具使用、规划和接地。基础模型通过表示学习和对齐塑造agent能力。预训练方面多模态预训练改善接地和感知使agent能够将语言绑定到视觉证据和UI状态。微调方面指令和策略调优改善有用性和安全性对于使agent在真实用户输入和对抗性提示下稳健至关重要。agent微调日益以轨迹为中心模型在包含工具调用、中间检查和纠正失败的轨迹上调优使模型不仅学会回答还学会在约束下操作——规划、行动、验证和恢复。agent分类论文按主要交互场所文本/工具、物理具身、模拟环境、生成目标内容/世界/体验和推理基底知识、逻辑、情感、神经符号结构对agent系统进行分类。通用agent[Figure 12: 通用agent应用领域和代表性能力需求] 该图总结了强调广泛工具使用和长周期可靠性的代表性通用agent领域。通用agent旨在使用共享策略核心加模块化工具和记忆解决跨领域的异构任务编码、浏览、分析和企业工作流。主要失败模式是工具和环境变化下的长周期累积错误。安全也更难因为不可信输入可能诱导针对工具使用的提示注入。构建实用方法结合(1) RAG用于证据支持的决策(2) 模块化工具路由MRKL风格以委托专业工作并强制执行模式/允许列表(3) ReAct风格推理-行动循环用于可追溯轨迹(4) 评论器/反思或搜索以在不确定性高时分配额外深思熟虑。使用WebArena、SWE-bench、ToolBench和AgentBench等现实套件进行评估以暴露工具使用脆弱性和可重复性差距。具身agent具身agent在物理世界机器人、智能设备中运行操作有真实成本且安全至关重要。具身增加了部分可观察性、传感器噪声和连续控制小的感知错误可能级联成不安全操作。主导设计是分层的LLM/VLM规划器产生高级技能而经典或RL控制器在安全包络下执行技能。[Figure 13: 具有人在回路反馈和共享自主的交互式具身agent] 该图提供了交互式agent和安全共享自主所需反馈循环的高层视图。操作agent强调做而非对话它们将目标映射到约束下的物理操作序列。交互式agent强调人在回路操作澄清、指令遵循和共享自主。模拟与环境agent模拟/环境agent在虚拟环境游戏、网络沙箱、合成世界中行动交互比现实世界更便宜且更可扩展。即使在模拟中部分可观察性和环境漂移也会造成脆弱性。模拟使快速迭代成为可能用于RL/IL的大规模交互、受控消融和可重复基准测试。生成式agent[Figure 14: 用于长周期内容和具有持久状态的社会模拟的生成式agent] 该图描绘了生成式agent以及为什么持久性、检索和验证对长周期连贯性至关重要。生成式agent通过创建故事、场景、对话驱动角色或社会行为演化模拟来产生超越单一答案的产物或体验。其核心困难是约束下的长周期连贯性维护一致的世界状态、角色和叙事同时避免重复和漂移。[Figure 15: AR/VR和混合现实agent低延迟多模态接地和操作] 该图突出显示AR/VRagent需求如低延迟多模态接地和空间锚定操作。AR/VR/混合现实agent是生成式和交互式系统的特例它们必须将实时多模态感知与低延迟操作和空间接地融合。延迟预算紧张且感官流嘈杂接地错误可能导致令人困惑或不安全的用户体验。论文综合了用于推理、规划、工具使用和部署的新兴agent架构。论文沿学习策略和系统优化、以及强调不同能力和评估机制的应用任务组织了这一领域。贯穿全文论文突出了反复出现的设计权衡并强调在现实工具和环境变化下的可重复评估。开放挑战包括工具操作的验证和护栏、可扩展的记忆和上下文管理、agent决策的可解释性以及在现实工作负载下的可重复评估。论文标题 AI Agent Systems: Architectures, Applications, and Evaluation论文链接https://arxiv.org/pdf/2601.01743v1

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询