2026/5/21 11:26:03
网站建设
项目流程
网站开发工具设备要求,2013网站建设方案,wordpress如何设置注册用户名大于4个字符,网站建设制作哪家便宜2025年#xff0c;大家都一致认为是AI Agent爆发的元年。
回顾整个2025以及过去几年#xff0c;我们从2022年开始专注智能体创作方向#xff0c;探索AI与内容创作的无限可能#xff0c;到2024年推出AI搜索引擎hellomiku#xff0c;再到今年12月推出了图文内容创作智能体01…2025年大家都一致认为是AI Agent爆发的元年。回顾整个2025以及过去几年我们从2022年开始专注智能体创作方向探索AI与内容创作的无限可能到2024年推出AI搜索引擎hellomiku再到今年12月推出了图文内容创作智能体01Agent。作为01Agent的联创这几年在AI Agent应用落地实战不断的试错探索过程中也有自己的一些经验和思考想在这里和大家一起分享。站在2025年的尾声回望这一年来Agent的发展并非一条直线更多是在狂热与冷静、通用与垂直、Tools与skills的博弈中螺旋上升。整篇文章首先将简单回顾一下2025年agent相关技术的发展情况并就以下6个板块分享我的深度复盘1.2025 AI Agent发展概况2.MCP之后为什么会出现 Skills3.只有充分上下文的信息才能做出正确决策4.从上下文工程到Agent工程5.Agent 落地的关键还是在于交付6.数据资产与memory才是真正的护城河一、2025 AI Agent发展概况首先我们一致达成共识的是AGI目前仍处于 新兴AGI 阶段。尽管大模型能力不断在攀升但它尚未达到全面执行人类所有智力任务的水平。相对于简单的信息整理或归纳总结生成任务面对一些复杂的长链条任务单纯依赖模型能力的提升远远不够。基于LLM为基座的Agent以及RAG的深度融合特别是上下文工程的构建成为了这一年Agent发展的重中之重。当然不只是在今年早在 2024 下半年开始就已经越来越多的厂商开始加入到Agent赛道例如2024.10.24 Anthropic 首次推出computer use 、2024.11推出的MCP server以及智谱的Autoweb glm等。到了今年3月技术的迭代速度实在太快大模型关键里程碑技术的突破又诞生出了o1以及deepseek R1 等推理模型以及类似Manus 整合computer use browser usecoding agent等的新形态agent产品。短短两个月到5月份由于manus的推出这段时间各种类Manus的产品也相继推出如genspark.ai、skywork.ai、纳米AI、lovartai、fowith.ai。这类agent产品大多数受Manus以及MCP server的启发并基于agent工程包括任务规划todolist集成各类MCP工具以及上下文等工程组成的一个super agent。通过大量的工具也让agent开始可以具备感知更多环境的能力比如基于playwright mcp serveragent可以开始自主使用浏览器。相比于上一阶段类似基于LLM的AI搜索只能做一些信息整理生成输出agent执行复杂的任务能力得到显著提升。当然这也离不开llm推理能力的不断进步如claude那段时间最新推出的claude 4模型等。在那段时间MCP的发展也非常迅速市面上从最开始1000多个mcp工具已经发展到13473mcp工具。并且也出现了各种一键封装集成mcp的工具如fastmcp谷歌也在那段时间推出了类似MCP关于Agent的A2A协议MCP 侧重于智能体与外部数据/工具的连接而 A2A 则侧重于智能体与智能体之间的协作。随着agent工程不断复杂化每一次执行任务都依赖大量的llm请求和工具调用以及不同agent的配合其中在大模型上下文有限的情况下如何跟踪不同agent的状态以及对每一次工具调用结果的管理变得至关重要有效的管理不仅可以提升agent的任务完成率并且也可以有效降低执行任务消耗的token成本。为此2025.06 AK在X提出了上下文工程的概念[上下文工程是为下一步提供正确的信息填充上下文窗口的微妙艺术和科学]。差不多到了8月份身边许多朋友对通用agent能力的质疑声越来越大特别是关于通用agent最终交付完成率好看不好用结果用户是否满意是否愿意付费总的来说目前整体市面上通用agent的任务交付率相对较差的。反而在垂直领域的agent表现效果突出短短几个月继cursor之后国内字节腾讯都推出或更新了自家的AI Coding产品如字节的trae腾讯的codebuddy包括anthropic的claude code当然AI coding效果表现出色离不开模型不断进化的代码编程能力如claude sonnet 4.5 , gemini 3 pro ,glm4.7等。再到10 月 16 日 Anthropic 正式推出Agent Skills最近openai 官方也开始支持Skills功能了Claude的Agent Skills将彻底改变行业格局推动在编程、客服和文档生成等领域的深度任务集成这也将标志着各种行业开始采用更专业、更高效的Agent。总的来说这一年我们见证了从 MCP 工具生态以及通用agent的‘寒武纪大爆发’到下半年对通用 Agent 交付能力的冷静反思再到垂直场景如 Coding和引入 Skills 机制的务实演进。这种极速迭代的背后实际上是 Agent 发展逻辑从‘连接万物’向‘精准交付’的深刻转型。二、MCP之后为什么会出现 Skills为什么会出现 Skills 可以这么说Skills的出现是Agent发展的必然产物。无论是Manus的computer use还是claude code 的coding agent当我们将终端命令行、文件系统等底层权限交给 Agent时这里会暴露出一个问题工具变得更精简了比如filesystem、terminal、browser等但任务的编排组合复杂度却呈指数级上升。比如给我一台顶配的电脑但是我不知道怎么用不会用再好的工具对我也没有意义。所以Agent也是一样的再好的工具如果Agent不知道怎么用怎么组合使用那再好的工具也无济于事。我相信这也是大多数通用Agent任务完成率低的原因之一。当前阶段的Agent 不再缺乏手脚而是缺乏大脑中的规划逻辑。Skills 正是填补这一空白的拼图它通过预设的专家经验或者任务场景工作流引导 Agent 在复杂的本地环境中以更规范、更稳定的路径去交付结果。在物理形态上Skills它非常朴素就是一个包含说明书SKILL.md和参考资料或脚本的文件夹。如果说Mcp server Tools 是给 Agent 发了一把锤子那么 Skills 就是塞给它一本使用手册。这里需要注意的是在 Agent 开发中我们往往容易陷入“工具堆叠”的陷阱感觉工具越多agent的能力边界就越大。其实更高效的做法是将“怎么做”的经验打包。最好的例子就是browser_use用户每天都会在基于浏览器进行各种各样的任务每个任务都有对应的sop链条如何将这些链条转为skills并在用户发送指令时精准识别对应的sop并召回将变得越来越重要。比如在01agent开发设计过程中无论是发布还是选题都有对应的skills并且会根据不同broswer_use的任务最终自我反思成一个可复用的sop。过去可能agent完成一个自动化发布的任务需要走很多弯路但是现在有了自己的sop并且这个sop会不断自主反思进行更新的整个browser_use的任务完成率也得到了大幅提升。三、只有拥有充分上下文的信息才能提高大模型做出正确决策的概率LLM 的本质是输入和输出每一次上下文的输入决定了每一次的输出是什么那么你也可以理解为Agent只不过是基于上下文不断循环的输入输出。如何做出正确决策这不经让我思考两个同样聪明的人能让它们拉开差距最大的因素是什么答案很可能是解决问题的能力而解决问题的能力关键在于如何围绕问题本身尽可能获取全面的上下文信息并基于上下文信息做出正确的决策。只有你获取的上下文信息足够多你才能做出正确决策。这里有个极端的例子比如如果我都知道全球关于某二手车的所有卖家的信息了那么我一定可以做出正确的决策选择出最具性价比的那辆车。如何做出正确的决策关键在于决策环境下获取的信息充不充分也就是说LLM需要评估所有可用的信息然后决定我需要采取哪些步骤当前我应该采取的第一步是什么在每一次输入大模型上下文有限的情况下怎么保证每一次输入都能是最好的输出怎么让agent知道用户的需求市面哪个工具是最佳解决方案怎么去找到这些工具也是一个至关重要的部分。四、从上下文工程到Agent工程在构建 LLM 应用程序时我们需要管理哪些类型的上下文上下文工程作为适用于几种不同上下文类型指令说明系统提示词、 few‑shot示例、工具描述等知识 事实、记忆等工具 来自工具调用的反馈更多是让LLM感知更多环境比如browse_use最终也是把环境转为上下文的形式长时间运行的任务和工具调用的累积反馈意味着Agent经常使用大量token会导致许多问题它可能会超出上下文窗口大小、token成本/延迟或降低Agent性能。在一篇文章中Drew Breunig 很好概述了较长上下文可能导致执行问题的许多具体方式包括语境中毒当幻觉进入语境时上下文分散注意力当上下文压倒了training时上下文混淆当多余的上下文影响响应时上下文冲突当上下文的某些部分不一致时上下文工程作为今年的核心以下是lanchain官方中分享的一些关于上下文工程比较好的策略可以参考Agent经常进行跨越数百个回合的对话需要仔细的上下文管理策略。我们将Agent上下文工程的常见策略分为四个部分—— 写入、选择、压缩和隔离Write Context编写上下文意味着将其保存在上下文窗口之外以帮助Agent执行任务。Scratchpads 当人类解决任务时我们会做笔记并记住未来相关任务。Agent也正在获得这些功能通过“ 暂存器 ”记笔记是在Agent执行任务时保留信息的一种方法。这个想法是将信息保存在上下文窗口之外以便Agent可以使用它。暂存器可以通过几种不同的方式实现。它们可以是简单地写入文件的工具调用。它们也可以是运行时状态对象中的字段在会话期间保留。无论哪种情况暂存器都可以让Agent保存有用的信息以帮助他们完成任务。Memories暂存本帮助Agent解决给定会话或线程 中的任务但有时Agent会从记住多个会话中的事情中受益 反射引入了在每次Agent回合后进行反思并重复使用这些自我生成的记忆的想法。 生成智能体创建了从过去智能体反馈的集合中定期合成的记忆。Select Context选择上下文意味着将其拉入上下文窗口以帮助Agent执行任务。Scratchpads 从暂存器中选择上下文的机制取决于暂存器的实现方式。如果它是一个工具 那么Agent可以通过进行工具调用来简单地读取它。如果它是Agent运行时状态的一部分则开发人员可以选择在每个步骤中向Agent公开哪些状态部分。这为在以后的回合中向 LLM 公开暂存器上下文提供了细粒度的控制级别。Memories如果Agent有能力保存记忆他们还需要能够选择与他们正在执行的任务相关的记忆。这可能很有用原因有几个。Agent可能会选择少量示例 情景记忆 作为所需行为的示例选择指令 程序记忆 来引导行为或选择事实 语义记忆 作为任务相关上下文。ToolsAgent使用工具但如果为他们提供过多的工具可能会变得过载。这通常是因为工具描述重叠导致模型对使用哪个工具感到困惑。一种方法是将 RAG检索增强生成应用于工具描述 以便仅获取与任务最相关的工具。最近的一些论文表明这可以将刀具选择的准确性提高 3 倍。KnowledgeRAG 是一个丰富的主题 它可能是一个核心的上下文工程挑战 。代码Agent是大规模生产中 RAG 的一些最佳示例。Windsurf 的 Varun 很好地抓住了其中一些挑战Compressing Context压缩上下文涉及仅保留执行任务所需的令牌Context Summarization座席交互可以跨越数百个回合 并使用令牌密集型工具调用。摘要是管理这些挑战的一种常见方法。如果您使用过 Claude Code您就会看到这一点。Claude Code 在您超过 95% 的上下文窗口后运行“ 自动压缩 ”它将总结用户与Agent交互的完整轨迹。这种跨Agent轨迹的压缩可以使用各种策略例如递归或分层摘要。Context Trimming摘要通常使用 LLM 来提炼最相关的上下文片段而修剪通常可以过滤或者正如 Drew Breunig 指出的那样“ 修剪 ”上下文。这可以使用硬编码启发式方法例如从列表中删除较旧的消息 。Drew 还提到了普罗旺斯一个训练有素的问答上下文修枝剪。Isolating Context 隔离上下文涉及将其拆分以帮助Agent执行任务Multi-agent隔离上下文的最流行方法之一是将其拆分为子Agent。OpenAI Swarm 库的动机是关注点分离 Agent团队可以处理特定的子任务。每个Agent都有一组特定的工具、说明和自己的上下文窗口。Anthropic 的多智能体研究人员对此提出了一个理由许多具有隔离上下文的智能体的性能优于单智能体这主要是因为每个子智能体上下文窗口都可以分配给更窄的子任务。正如博客所说Context Isolation with EnvironmentsHuggingFace 的深入研究者展示了上下文隔离的另一个有趣的例子。大多数Agent使用工具调用 API它返回 JSON 对象工具参数这些对象可以传递给工具例如搜索 API以获取工具反馈例如搜索结果。HuggingFace 使用 CodeAgent该 CodeAgent 输出包含所需工具调用的输出。然后代码在沙盒中运行。然后从工具调用中选定的上下文例如返回值被传递回 LLM。State值得指出的是Agent的运行时状态对象也可以是隔离上下文的好方法。这可以起到与沙盒相同的作用。状态对象可以使用具有可以写入上下文的字段的架构来设计。模式的一个字段 例如消息 可以在Agent的每个回合向 LLM 公开但模式可以隔离其他字段中的信息以便更有选择性地使用。随着Agent的不断发展目前的趋势看来如果需要为每个agent都配一台电脑当 Agent 的能力从对话扩展到如编写代码、分析数据、生成文件时我们实际上是在为每个 Agent 分配一台“云端电脑”。当前01Agent也为每个用户的专属Agent配置了一台云端电脑。这标志着开发重点从单一的Prompt/Context 工程转移到了全栈Agent基础设施工程的构建。这一阶段的挑战和工程重点主要体现在以下三个维度1.Sandbox基础设施的构建与编排如果说上下文工程解决的是“大脑”怎么思考的问题那么沙箱工程解决的就是“双手”在何处工作的问题。环境隔离与安全性当 Agent 执行 Python 代码或 Shell 命令时必须在严格隔离的沙箱中运行以防止对主机造成安全威胁如 rm -rf / 这种容易造成安全事故的指令。环境一致性Agent 需要预装特定的依赖库。如何快速启动一个带有特定环境的“电脑”成为了工程难题。冷启动与延迟为每个任务瞬间启动一个虚拟机是有延迟的。Agent 工程需要通过热池或快照技术来最小化 Agent 启动时间保证用户体验的流畅性。2.文件系统与状态管理在上下文窗口之外文件系统是 Agent 最重要的“外挂硬盘”。生成文件的生命周期管理Agent 在执行任务过程中会产生大量中间文件图片、代码文件、Pdf等。如何存储这些文件何时清理如何让用户下载这涉及到底层的对象存储与临时文件系统的协同。持久化工作区对于长时间运行的任务Agent 需要一个持久的“工作台”。即使用户关闭了浏览器Agent 所在的环境状态和文件也应该被保留以便下次唤醒时能“接上断点”继续工作。比如01Agent关于用户浏览器cookie数据的持久化管理方便用户下次执行相关任务不再需要登录这实际上是在构建一个云端的 OS 文件管理系统。3.成本控制与资源调度“给每个 Agent 配一台电脑”意味着计算成本的指数级上升。Token 成本 vs. 计算成本以前主要关注 LLM 的 Token 消耗现在必须关注sandbox的运行时间。长时间运行的 Agent会带来成本上更大的消耗。Serverless Agent 架构为了降低成本Agent 工程趋势向 Serverless 靠拢——即“用完即走”。当 Agent 等待 LLM 思考时暂停计算资源当 Agent 执行代码时毫秒级唤醒计算资源。这种精细化的调度是控制大规模 Agent 部署成本的关键。4.记忆的物理化从 Context 到 Database在 Agent 工程中“记忆”不再仅仅是塞进 Prompt 里的文字片段而是变成了结构化的数据库系统。记忆的存储层短期记忆可能在内存或 Redis 中长期记忆如用户偏好、历史任务结果则需要存入向量或图数据库。目前这一过程也是最容易被忽视的但非常重要。索引与检索在工程层面这意味着需要构建高效的检索引擎无论是memory还是SKills让 Agent 能够像访问硬盘一样快速从海量历史数据中提取关键信息而无需依赖昂贵的上下文窗口。随着 Agent 的进化上下文工程正在成为Agent 工程的一个子集。上下文工程 关注的是如何最优化 LLM 的输入输出Agent 工程则关注的是如何构建一个稳定、安全、低成本的Agent计算机系统让这个“大脑”能够真正地在数字世界中通过使用工具产生实际价值。这标志着我们从单纯的“调优模型”时代正式迈入了“构建智能体操作系统”的软件工程深水区。五、Agent 落地的关键还是在于交付Agent 关键还是在于交付率交付率高了用户自然愿意付费。相比于通用Agentcoding Agent场景为什么交付率那么高关键是满足三个条件任务明确场景封闭结果可验证。1.任务明确指的是Agent 需要解决的问题或执行的操作是具体、清晰且定义良好的Coding Agent 用户提出的需求通常是直接的编程任务比如修改这个bug很少有直接生成xxxapp。相比于开放域的对话或任务如“帮我生成一个xxx旅游攻略”Coding任务的目标和成功标准通常更少歧义也更方便于验证。2.场景封闭Agent 的操作环境是受限的、边界清晰的。它主要在集成开发环境内部工作与代码文件、项目结构等直接相关的元素交互。场景封闭的优势关键在于能获取尽可能丰富的上下文信息代码报错信息等以及coding场景的规则相对固定代码等语法规则相对固定重要的是这些LLM都擅长理解。3.结果可验证生成的代码可以立即编译、运行进行验证。运行成功还是报错一下就验证了。这种即时、客观的反馈循环极大地促进了 Agent 的成功。但类似旅游攻略报告这种人为主观的验证多多少少会增加结果可验证的不确定性。如何量化一个结果的验证机制至关重要。对于像 Cursor 这样的Coding Agent“任务明确”意味着它处理的是具体的、可定义的编码问题“场景封闭”意味着它在 IDE 这个边界清晰、信息结构化、规则相对固定的环境中工作。这两个特性极大地缩小了问题域让大模型能够高度聚焦其能力特别是Claude这种擅长Coding以及支持长上下文的LLM其充分利用可获取的精确上下文信息并产生易于验证的结果克服了通用Agent 常面临的模糊性、复杂性和难以验证的问题最终实现了高交付率。也正是因为Agent执行任务高的交付率解决了用户实质问题用户觉得它有价值从而愿意付费。目前01Agent刚上线不到一周时间大量的付费用户也一定程度证明了这一点用户只为Agent交付的结果是否满意而决定是否买单。六、数据资产与memory才是真正的护城河如果说高交付率是 Agent 产品的敲门砖那么用户数据沉淀与个性化记忆则是真正的护城河。随着 LLM 本身日益成为一种水电般的基础设施不同 Agent 产品在模型能力上的差距终将缩小。在 2026 年区分一个 Agent 是否具备不可替代性的核心将取决于它有多懂它的用户。1.资产沉淀从一次性交互到长期资产积累在过去我们使用工具产生的数据往往是割裂的。但在 Agent 时代用户在使用过程中产生的所有交互、创作的内容无论是文章还是海报都不应仅仅是历史记录而应转化为用户的数字资产。 以01Agent的内容创作为例01Agent 不仅是在帮用户写一篇文章设计一个海报这些都可以作为你日后不断累积的数字资产甚至是可以进行变现的资产。这种资产的沉淀使得迁移成本变得极高——用户无法轻易离开一个已经存储了他们大量作品的系统。2.个性化与默契打造“最懂你”的超级助手通用 Agent 往往给人一种“千人一面”的感觉。但真正的超级助手应该具备深度的个性化能力。这种个性化不仅仅是记住你的名字而是基于长期记忆形成的默契。这种默契体现在 Agent 能够预判你的需求。例如在创作场景中一个懂你的 Agent 不需要你每次都提示“请使用xxx风格”因为它从你过去修改的内容中已经学到了这些偏好。随着数据的不断沉淀Agent 的每一次输出都更贴合用户的心意从而形成一个正向的数据飞轮Agent 越懂用户 - 用户体验越好 - 用户使用频率越高 - 沉淀数据越多 - Agent 越懂用户3.信任阶梯建立社会化关系 Agent 的终极形态是与用户建立起一种类社会的信任关系。用户对 Agent 的信任通常经历三个阶段怀疑期 用户尝试性使用不仅要检查结果还要像防贼一样盯着每一步操作如早期的 AI coding。验证期 用户发现 Agent 在特定领域非常靠谱开始在这些垂类任务上放权但核心决策仍需人工介入。依赖期 当 Agent 通过长期的个性化服务证明了自己的稳定性后用户开始产生绝对信任。这种信任关系一旦建立就是最高的壁垒。就像现实生活中你可能因为哪个工具好用就换哪一个工具但你很难因为好用一点就换掉一个跟随你十年、这懂你每一个眼神含义的助理。未来的 Agent 产品竞争的不再是谁的模型参数更大而是谁能更快地攀爬上用户的信任阶梯成为用户数字生命中不可或缺的伙伴。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取