2026/5/21 16:09:46
网站建设
项目流程
网站内容建设要求age06,动图在线制作网站,做游戏网站在哪里找,wordpress 做淘宝客文章介绍了AI Agent的三大核心模块#xff1a;大脑模块#xff08;由LLM构成#xff0c;负责知识存储、记忆和决策#xff09;、感知模块#xff08;多模态输入#xff0c;理解环境信息#xff09;和行动模块#xff08;执行操作#xff0c;与外部环境交互#xff09…文章介绍了AI Agent的三大核心模块大脑模块由LLM构成负责知识存储、记忆和决策、感知模块多模态输入理解环境信息和行动模块执行操作与外部环境交互。AI Agent的工作流程是感知环境→大脑处理信息并决策→执行行动→迭代循环直到完成目标。这种架构使AI Agent能够理解环境、做出决策并采取行动展现出类似人类的智能行为。第2章 AI Agent 核心概念在了解了AI Agent的起源、发展历程及其定义后我们再来看看AI Agent的核心概念并基于核心概念梳理出智能体的核心流程。2.1 核心概念由米哈游联合复旦 NLP 组于2023年9月发布的论文《The Rise and Potential of Large Language Model Based Agents: A Survey》中对智能体的现有研究成果进行了系统概括提出了一个比较全面的通用概念框架见如下图所示 image-20250218150706027图1 基于大语言模型的智能体的概念框架包含三个组成部分大脑、感知和行动。基于大语言模型的智能体的概念框架由三个关键部分组成大脑、感知和行动**大脑模块**大脑模块作为控制中心是智能体的核心主要由LLM大语言模型构成。大脑模块不仅存储知识和记忆还承担着信息处理和决策功能。通过分析、推理、规划过程生成下一步的行动方案同时还具有泛化能力、能够很好地应对未见过的任务展现出智能体的智能。**感知模块**使智能体可以感知外部环境的变化。需要将智能体的感知空间从纯文本领域扩展到包括文本、听觉和视觉模态等多模态领域这种扩展使智能体能够更有效地理解和利用来自周围环境的信息。如通过文字输入、传感器、摄像头、麦克风等建立起对外部世界或环境的感知。**行动模块**旨在扩展智能体行动空间。具体来说赋予智能体使用工具技能及具身行动能力能与外部环境或世界进行交互使其能适应环境变化、提供反馈甚至影响和塑造环境。该框架可以根据不同的应用场景进行定制。一般来说智能体按以下工作流程运行首先感知模块对应于人类的感官系统如眼睛和耳朵感知外部环境的变化然后将多模态信息转换为智能体可理解的表示形式。随后大脑模块作为控制中心进行思考、决策等信息处理活动存储经验知识和记忆从记忆中提取有效信息以优化决策。最后行动模块对应于人类的四肢在工具的辅助下执行操作并对周围环境产生影响。通过重复上述过程智能体可以不断获得反馈并与环境进行交互。上图中的例子来说明其工作流程当一个人询问是否会下雨时感知模块会将该指令转换为大语言模型能够理解的表征形式。然后大脑模块开始根据当前的天气状况以及互联网上的天气预报利用工具获取天气预报信息进行推理。最后行动模块做出回应并将雨伞递给这个人。通过重复上述过程智能体能够持续获得反馈并与环境进行交互。2.1.1 大脑模块大脑模块的运行机制在接收到感知模块处理的信息后大脑模块首先转向存储检索知识并从记忆中回忆。这些结果有助于智能体制定计划、进行推理并做出明智的决策。此外大脑模块可能会以摘要、向量或其它数据结构的形式保存智能体过去的观察、想法和行动。同时它还可以更新常识和领域知识等以供将来使用。基于大语言模型的智能体还可以凭借其固有的泛化和迁移能力适应不熟悉的场景。智能体的大脑模块主要以大语言模型来构建核心包括以下几个部分**自然语言交互**为了确保有效沟通进行自然语言交互的能力至关重要语言包含着丰富的信息。除了直观表达的内容之外话语背后可能还隐藏着说话者的信念、愿望和意图。由于大语言模型LLMs所固有的强大自然语言理解和生成能力智能体不仅能够熟练地用多种语言进行基本的交互式对话 还能展现出深入的理解能力让人类能够轻松地与智能体进行理解和交互。**知识**在大规模数据集上训练的语言模型能够将广泛的知识编码到其参数中可对各种类型的查询做出正确的响应。这些知识可以帮助基于大语言模型的智能体做出明智的决策。但存在些问题模型在训练过程中获取的知识可能会过时甚至从一开始就是错误的。一个简单的解决方法是重新训练。但这需要先进的数据、大量的时间和计算资源。更糟糕的是这可能会导致灾难性遗忘 。大语言模型可能会生成与源信息或事实信息相冲突的内容 这种现象通常被称为 “幻觉”。这是大语言模型无法广泛应用于事实性要求严格的任务的关键原因之一。记忆“记忆” 存储着智能体过去的观察、想法和行动序列。当面对复杂问题时记忆机制有助于智能体有效地回顾和应用先前的策略。并使智能体能够借鉴过去的经验来适应不熟悉的环境。推理与规划推理是人类智力活动的基础是解决问题、决策以及批判性分析的基石。演绎、归纳和溯因推理是人们普遍认可的主要推理形式。对于智能体而言推理能力如同人类一样是解决复杂任务的关键。一些研究实验已被证明通过引导大语言模型在输出答案前先生成推理依据能够激发出其推理能力如具有代表性的思维链Chain-of-ThoughtCoT通过对LLM提示词中要求「think step by step」LLM会把问题分解成多个步骤一步一步思考使得输出的结果更加准确。还有一些策略如自一致性self-consistency、自优化self-polish、自精炼self-refine和选择推理selection-inference等也被提出用于提升大语言模型的性能后续章节会进行详细解析。规划是人类应对复杂挑战时的关键策略。对人类而言规划有助于组织思路、设定目标并制定达成这些目标的步骤。同样规划能力对于智能体也至关重要推理能力是规划模块的核心。通过推理智能体将复杂任务分解为更易处理的子任务并为子任务制定合适的行动序列计划。同时随着任务的推进智能体能够通过内省来调整计划确保其与现实情况更好地契合实现自适应且成功的达成目标。规划包含两个阶段计划制定在计划制定过程中智能体通常会将总体任务分解为多个子任务。计划反思制定好计划后对其优点进行反思和评估至关重要。智能体利用内部反馈机制从模型中获取见解以优化其策略和规划方法。迁移和泛化能力智能不应局限于特定领域或任务而应涵盖广泛的认知技能和能力适应不同的领域和任务。该能力包括以下三个方面未见任务泛化研究表明经过大规模语料库训练的语言模型无需进行特定任务的微调就能展现出零样本泛化能力。具体而言大语言模型能够根据自身理解遵循指令完成在训练阶段未遇到的新任务。上下文学习众多研究表明大语言模型能够通过上下文学习ICL执行各种复杂任务。上下文学习是指模型从上下文中的少量示例中学习的能力。少样本上下文学习通过将原始输入与几个完整示例作为提示来丰富上下文从而提高语言模型的预测性能。持续学习大语言模型的规划能力在促进智能体持续学习方面的潜力。持续学习涉及技能的持续获取和更新其核心挑战之一是灾难性遗忘即模型在学习新任务时往往会遗忘先前任务的知识。利用大语言模型的规划能力来结合现有技能可以有效应对灾难性遗忘问题。2.1.2 感知模块人类和动物依靠眼睛、耳朵等感觉器官从周围环境收集信息。这些感知输入被转换为神经信号并发送到大脑进行处理使得能够感知世界并与之互动。同样对于基于智能体而言通过感知模块将这些信息传递给大脑模块进行处理。接收各种来源和模态的信息至关重要使智能体更好地理解环境、做出明智决策。智能体的多模态感知能力主要包括**文本输入**基于LLM的智能体已经具备强大的语言生成和理解能力具备通过自然语言与人类及其它智能体进行交流的基本能力。在文本输入中除了明确表达的内容外背后还隐藏着信念、欲望和意图。理解隐含意义对于智能体把握人类用户的潜在和内在意图至关重要从而提高其与用户的沟通效率和质量。**图像输入**LLMs 本身并不具备视觉的感知能力只能理解离散的文本内容而图像输入通常包含有关世界的大量信息包括物体的属性、空间关系、场景布局等智能体周围的信息。针对LLMs无法理解图像中的信息常见的解决方法有图像字幕为图像输入生成相应的文本描述即图像字幕从而被LLM理解。这种方式并且无需为字幕生成进行额外的训练从而可以节省大量的计算资源但字幕生成是一种低带宽方法在转换过程中可能会丢失大量潜在信息。图像编码器和大语言模型结合研究尝试将图像编码器和大语言模型直接结合使用 Transformer 对视觉信息进行编码通过对齐视觉编码器和大语言模型将图像编码转换为大语言模型能够理解的嵌入。以端到端的方式训练整个模型。这使智能体实现卓越的视觉感知能力但需要大量的计算资源成本。**视频输入**视频输入由一系列连续的图像帧组成。因此智能体用于感知图像的方法可能也适用于视频领域与图像信息相比视频信息增加了时间维度。因此智能体需要对视频中不同帧之间时间关系进行理解。**听觉输入**当智能体具备听觉能力时它可以提高对交互内容、周围环境的感知。有两种方法实现听觉能力利用智能体的工具使用能力智能体可以使用LLMs作为控制中心调用现有的工具集或模型库来感知音频信息。例如AudioGPT充分调用了FastSpeech文本到语音、GenerSpeech风格转换、Whisper语音识别等模型的功能。将感知方法从视觉领域迁移到音频领域对于一段时间内的一段音频数据可以将其抽象为有限长度的音频频谱图。采用类似于 ViT 的 Transformer 架构来处理音频频谱图图像。通过将音频频谱图划分为补丁实现对音频信息的有效编码。将音频编码与其它模态的数据编码对齐来训练整个模型。使得模型实现感知能力。**其他输入**引入现实世界的更多的输入配备更丰富的感知模块。例如触觉和嗅觉感知周围环境的温度、湿度和亮度眼球追踪、身体动作捕捉3D 地图、甚至是脑机交互中的脑波信号。此外还可以引入对更广阔的整体环境的感知采用激光雷达、GPS、惯性测量单元等成熟的感知模块。2.1.3 行动模块人类感知环境后大脑会对感知到的信息进行整合、分析和推理然后做出决策。随后人类利用神经系统控制身体从而对环境做出适应性或创造性的反应例如进行对话、躲避障碍或生火。在智能体的构建中行动模块接收大脑模块发送的行动序列并执行行动与环境进行交互。智能体的行动能力包括以下几个方面**文本输出**基于LLM的智能体固有的语言生成能力。它可以生成流畅性、相关性、多样性等方面表现出色的文本。**工具使用**工具扩展智能体的行动空间。智能体利用工具与外部环境交互例如通过搜索工具查询网页信息来获取即时资讯、调用SQL执行器来查询数据库获取专业知识、 利用Python 解释器来执行复杂数学计算任务等等。**具身行动**在追求通用人工智能AGI的过程中具身智能体被视为一个关键范式它致力于将模型智能与物理世界相结合。智能体的行为不再局限于纯文本输出或调用特定工具来执行特定领域任务。相反它们应该能够主动感知、理解并与物理环境进行交互基于语言模型丰富的内部知识做出决策并产生特定行为来改变环境。我们将这些统称为具身行动它使智能体能够以与物理世界进行交互和理解。2.2 核心流程在对AI Agent的核心概念有了整体了解后我们可以梳理出AI Agent大致的工作流程。如下图所示AI Agent的工作流程是AI Agent通过感知模块观察环境收集环境信息如文本、图片、视觉、3D 地图等多模块信息将这些信息传递给大脑模块进行处理大脑模块基于内部的世界知识、环境的状态及记忆进行思考、规划并决策生成下一步的行动计划最后执行具体行动如调用工具与环境进行交互行动结果会对环境产生新的影响。这个过程会迭代进行直到完成目标。AI Agent 的工作流程核心包括以下三个模块**感知Perception**指 AI Agent 观察周围环境并从环境中收集信息提取有用的数据。Agent 所收集的信息包括文本、听觉、视觉等多模态领域。为了使智能体更好地理解环境能够接收多模态的信息是至关重要的。**大脑Planning/decision**大脑模块核心是进行规划和决策它根据感知模块收集的环境状态信息结合内部的世界知识和记忆进行规划并做出决策为达成目标任务生成下一步的行动计划。规划和决策通常由LLM大语言模型来承担除此之外还包括World Knowledge具备丰富的世界知识由大语言模型在训练中得到并固化在模型参数中。State当前环境的状态信息。Memory记忆保持了历史的思考决策过程及过去的行动计划。Reflection反思是根据当前的环境状态信息和历史行动结果进行总结生成更高级别抽象的见解作为经验信息并存储在记忆中以优化未来的决策该功能使得AI Agent具有自我迭代学习能力如在错误中总结教训并在后续步骤中完善。**行动Action**指 AI Agent 执行策略做出的具体行动比如输出文本使用搜索工具查询网页信息、调用API访问外部服务等等。行动会产生多样的结果并影响环境状态。行动结果和环境状态的变化进一步被感知模块观察到作为下一轮的输入。这个过程不断迭代直到完成目标。如果用一个公式来表达 AI Agent可以表示为AI Agent PerceptionObservation BrainLLMStateMemoryReflection ActionToolAI时代未来的就业机会在哪里答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具到自然语言处理、计算机视觉、多模态等核心领域技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。掌握大模型技能就是把握高薪未来。那么普通人如何抓住大模型风口AI技术的普及对个人能力提出了新的要求在AI时代持续学习和适应新技术变得尤为重要。无论是企业还是个人都需要不断更新知识体系提升与AI协作的能力以适应不断变化的工作环境。因此这里给大家整理了一份《2026最新大模型全套学习资源》包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等带你从零基础入门到精通快速掌握大模型技术由于篇幅有限有需要的小伙伴可以扫码获取1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。5. 大模型行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。为什么大家都在学AI大模型随着AI技术的发展企业对人才的需求从“单一技术”转向 “AI行业”双背景。企业对人才的需求从“单一技术”转向 “AI行业”双背景。金融AI、制造AI、医疗AI等跨界岗位薪资涨幅达30%-50%。同时很多人面临优化裁员近期科技巨头英特尔裁员2万人传统岗位不断缩减因此转行AI势在必行这些资料有用吗这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。大模型全套学习资料已整理打包有需要的小伙伴可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】