2026/5/21 12:12:26
网站建设
项目流程
专业做婚纱摄影网站,沈阳高端网站建设公司,html可以用什么软件写,会员卡管理系统软件摘抄#x1f4a1; 核心点 (原话/概括)#x1f504; 内化 (我的话/关联)从后端转 AI Agent 工程师#xff0c;核心是转变思维模式#xff1a;从“确定性”的编程逻辑#xff0c;转向“概率性”的系统构建。第一站#xff1a;告别“调包侠”#xff0c;真正理解 LLM 的能力…摘抄 核心点 (原话/概括) 内化 (我的话/关联)从后端转 AI Agent 工程师核心是转变思维模式从“确定性”的编程逻辑转向“概率性”的系统构建。第一站告别“调包侠”真正理解 LLM 的能力边界和工作原理什么是 Embedding为什么需要向量数据库Cosine Similarity 到底在算个啥RAG检索增强生成的本质是什么ReActReasoning and Acting这个模式是怎么让 LLM 和外部工具交互的Function Calling 的工作流程是怎样的Embedding(嵌入)Cosine Similarity余弦相似度1.它懂“话题”但不一定懂“逻辑”- “我喜欢吃苹果” 和 “我讨厌吃苹果”。 - 这两句话的余弦相似度其实很高因为它们都在聊“我、情绪、吃、苹果”。如果你要做情感分析光靠余弦相似度可能会误判。Function CallingLLM 在调用工具时输出会暂停吗会等待吗动手写一个“丐版”的 RAG。你自己用sentence-transformers库把文档切块、生成向量存到一个 Faiss 或者 ChromaDB 的本地实例里。sentence-transformers- 它是目前工程界最流行的开源工具库Python 库专门用来生产高质量的“语义向量”。 - 它是对 BERT 进行了特训Fine-tuning。 - 训练方式叫Siamese Networks孪生网络Faiss向量数据库ChromaDB向量数据库第二站以一个“真实”的场景驱动构建你的“代表作”1. 复杂数据处理 2. 核心 RAG 流程 3. Agentic 逻辑与 Tool Use 4. 评估评估评估重要的事情说三遍unstructured.io复杂数据处理 它是目前开源界**清洗数据ETL**的标准答案。只有数据洗得干净后面的 Embeddings 和回答才会准。HyDEHypothetical Document Embeddings一种高级 RAG 方法设计模式不是某个库 HyDEMulti-Query RetriverMulti-Query Retriever 主要是“一种方法论Methodology”或“设计模式”。 它已经成为了 LangChain 和 LlamaIndex 这些“标准工具库”里的一个现成组件。 LangChain 直接提供了一个类叫MultiQueryRetriever。这是目前业界最标准的“工具”。 Multi-Query Retriver这个过程怎么调试LLM 为什么不按你的想法去调用工具这就是 Agent 工程师天天在挠头的事情。你可能需要用 LangGraph 或者自己实现一个 ReAct 循环来管理这个复杂的执行逻辑。你的 Agent 做完了怎么证明它比人肉看报告更好最简单的找 20 份报告设计 100 个问题和标准答案形成一个“评估集”。然后让你的 Agent 跑一遍用Ragas这类框架计算一下faithfulness忠实度、answer_relevancy相关性等指标。的标准答案。只有数据洗得干净一切优化都是玄学。Ragas Retrieval Augmented Generation Assessment第三站补齐“生产化”的最后一块拼图1. 成本和延迟意识 2. 可观测性 3. 模型与工具链一个设计不好的 Agent 链条一个请求进来可能要来回调用 LLM 十几次成本直接爆炸。你怎么设计缓存策略怎么通过更小的模型比如 fine-tune 一个本地模型来处理某些固定任务怎么优化 Prompt 来减少 token 消耗这些都是 P7 级别需要考虑的问题。一个 Agent 的执行过程是个复杂的黑盒。你需要引入像 LangSmith、wandb 这样的工具去追踪每一次调用的 Prompt、返回结果、中间步骤、token 消耗。字节就是一个很好的关注对象因为它的版图足够大所以它的 agent 手册就可以覆盖 agent 从底层技术大模型、工具调用、API 集成、架构设计到各种泛业务场景办公、电商、内容创作、教育的全链路案例。LLM 在调用工具时输出会暂停吗会等待吗答案是的会暂停而且是接力跑式的暂停。我们可以把整个过程想象成一场**“接力赛”**LLM 和 我们的系统代码Python/Java 后端是两个运动员他们不能同时跑必须交接棒。1. 第一棒LLM 思考与暂停 (The “Stop” Event)当用户问“查天气”时LLM 开始生成文字。一旦它通过训练好的逻辑判断出“我要调工具了”它会生成一个特殊的停止符或者一段特定的 JSON 结构然后停止生成。此时的状态 LLM 的任务暂时结束了。它告诉系统“我需要这个工具参数是北京你快去办办完告诉我。”注意点这时候用户界面通常还在“思考中”或“处理中”但实际上 LLM 已经不干活了压力转到了我们的后端服务器上。2. 第二棒系统“跑腿” (System Execution)我们的后端代码接过了棒子。系统拿着 LLM 给的指令get_weather(locationBeijing)去请求气象局的 API。这个过程LLM 是完全不知道的也不参与的如果气象局 API 卡了 10 秒整个对话就会卡 10 秒。LLM 不会催因为它已经“挂起”了。3. 第三棒LLM 重新接棒 (Resume Generation)系统拿到了气象局的数据比如“25 度”但这还不是人话。 系统会把 [用户问题 LLM 刚才的思考 工具返回的结果]打包在一起再次发给 LLM。系统对 LLM 说“刚才你要查的数据回来了是 25 度现在请你把这句话说完。”LLM 重新启动结合上下文生成最终回复给用户。Faiss vs ChromaDB 架构对比PixPin_2026-01-06_14-35-42unstructured.ioPixPin_2026-01-06_14-36-00HyDE痛点用户的问题非常短、非常模糊而我们要找的文档非常专业、非常长的时候。这时候标准的搜索经常失效。HyDE (Hypothetical Document Embeddings)就是解决这个问题的“作弊技巧”。HyDE 的核心思想是与其拿“问题”去搜不如拿“答案”去搜。但是我们没有答案啊没关系让 LLM 编一个流程变成了这样用户问“断网了怎么办”LLM 先生成一个假设性回答Hypothetical Document“如果遇到网络连接中断通常需要检查路由器的 WAN 口指示灯尝试重启调制解调器或者检查 DHCP 配置是否获取到了 IP 地址…”注意这个答案可能是错的比如你的产品根本不是路由器。但没关系重要的是它包含了很多相关关键词。我们拿这段**“假答案”**转成向量。去数据库里搜。这时候“假答案”里的关键词路由、IP、重启就能完美匹配到那篇《故障排查手册》了。PixPin_2026-01-06_14-36-18Multi-Query RetriverPixPin_2026-01-06_14-36-40Retrieval Augmented Generation AssessmentRagas 是什么一个 Python 库用于量化评估 RAG 系统的质量。解决什么拒绝“凭感觉优化”用“Faithfulness”和“Recall”等数据说话。PixPin_2026-01-06_14-37-54指标 (Metric)维度它是查什么的通俗解释Faithfulness (忠实度)生成质量答案是不是瞎编的你的答案是否每一句都能在检索到的文档里找到出处防幻觉指标Answer Relevance (答案相关性)生成质量答非所问了吗用户问“怎么退款”你回答“退款政策是 XX”这就相关。如果你回答“你好”这就低分。Context PrecisionBR (上下文精确度)检索质量搜到的东西有用吗搜出来的 5 条文档里排在第 1 条的是不是最关键的还是说全是垃圾广告Context Recall (上下文召回率)检索质量该搜的都搜到了吗标准答案里需要的信息你的检索器真的捞出来了吗还是漏掉了关键段落读者福利如果大家对大模型感兴趣这套大模型学习资料一定对你有用对于0基础小白入门如果你是零基础小白想快速入门大模型是可以考虑的。一方面是学习时间相对较短学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。作为一名老互联网人看着AI越来越火也总想为大家做点啥。干脆把我这几年整理的AI大模型干货全拿出来了。包括入门指南、学习路径图、精选书籍、视频课还有我录的一些实战讲解。全部免费不搞虚的。学习从来都是自己的事我能做的就是帮你把路铺平一点。资料都放在下面了有需要的直接拿能用到多少就看你自己了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以点击文章最下方的VX名片免费领取【保真100%】