2026/4/6 5:42:54
网站建设
项目流程
站酷海洛,网站页面上的下载功能怎么做,wordpress修改文章次序,自己做百度网站RAG虽然是最早应用的技术#xff0c;也在不断的进化#xff0c;AI系统的好坏#xff0c;RAG的质量几乎起着决定性作用。优秀的RAG系统召回率几乎能做到100%#xff0c;准确率能做到99%以上。本文来聊聊这些新技术。
RAG#xff08;检索增强生成#xff09;的5种文本分块…RAG虽然是最早应用的技术也在不断的进化AI系统的好坏RAG的质量几乎起着决定性作用。优秀的RAG系统召回率几乎能做到100%准确率能做到99%以上。本文来聊聊这些新技术。RAG检索增强生成的5种文本分块策略分块Chunking是RAG流程中的关键预处理步骤其目的是将冗长的文档切分成更小、更易于管理的片段chunks以便于后续的向量化、检索并最终提高大模型生成答案的质量。1. 固定大小分块 (Fixed-size chunking)原理这是最简单、最常用的策略。它预先设定两个关键参数块的大小如字符数或token数和重叠量overlap。操作方式像一个固定大小的滑动窗口一样在文本上移动。如图所示它会先取第一段文本“Artificial intelligence is transforming technology”作为 Chunk 1。然后窗口向后移动但会包含上一块末尾的一部分内容“transforming technology”作为 Chunk 2 的开头以此类推。优点简单、快速、计算开销小。缺点可能会生硬地切断完整的语义单元如一个句子或一个概念导致信息不完整。适用场景文档结构不明确或对处理速度要求极高的场景。2. 语义分块 (Semantic chunking)原理根据文本内容的语义相关性或语义连贯性来动态确定分块的边界目标是让每个块都包含一个尽可能完整的语义主题。操作方式如图所示流程从创建一个初始块开始。系统会持续向当前块添加新的文本段落sentences并实时计算块内内容的余弦相似度一种衡量向量间相似度的指标。当新加入的文本导致整体相似度急剧下降时说明语义发生了显著转折此时就在此处切断形成最终的块。然后开始下一个块的过程。优点能产生语义上更连贯、更完整的块检索质量通常更高。缺点计算复杂度高需要嵌入模型Embedding Model来将文本转化为向量并计算相似度。适用场景对检索精度要求高的场景如学术文献、技术文档等。3. 递归分块 (Recursive chunking)原理采用“分而治之”的思想通过分层、递归的方式将文档由大变小。它使用一组预定义的分隔符如 \n\n, \n, ., !, ?, …并按优先级尝试分割。操作方式如图所示流程从整个文档开始。首先尝试用最高优先级的分隔符如双换行符\n\n进行分割。如果分割后得到的块仍然太大就对这块大的文本递归地使用下一优先级的分隔符如单换行符\n再次分割重复此过程直到所有块的大小都满足要求。优点比固定大小分块更能尊重段落和句子的自然边界是实践中非常流行且有效的折中方案。缺点分隔符的选择和优先级设置需要根据文档类型进行调整。适用场景通用性很强尤其适用于格式良好、有段落结构的文档。4. 基于文档结构的分块 (Document structure-based chunking)原理利用文档固有的逻辑结构或标记Markup来进行分块。它假设文档本身具有清晰的结构如标题、章节、段落等。操作方式如图所示直接按照 Title标题、Introduction引言、Section #1章节1、Section #2章节2、Conclusion结论等结构单元来划分文本。每个单元或其组合可以形成一个块。图中备注提到如果某个结构单元如一个章节本身内容过长可以与递归分块策略结合使用对该章节进行进一步的递归分割。优点分块的逻辑性与人类的理解方式高度一致块的质量非常高。缺点严重依赖于文档本身是否具有良好的结构对于纯文本或无格式文档效果不佳。适用场景处理HTML、Markdown、PDF带书签、LaTeX等具有明确标签和结构的文档。5. 基于大语言模型的分块 (LLM-based chunking)原理将分块任务直接交给大语言模型来完成利用其强大的语义理解能力。操作方式如图所示将整个或部分文档输入给LLM并指令模型根据内容语义自主地将文档划分为一系列连贯的、有意义的块。LLM可能会生成像 Chunk 1: [Title, Introduction], Chunk 2: [Introduction, Section #2, Conclusion] 等这样的输出。这种方法非常灵活甚至可以理解跨段落的概念聚合。优点智能化程度最高能产生语义上最优的分块结果。缺点成本最高、速度最慢并且需要精心设计提示词Prompt。适用场景当其他分块方法都无法满足极致精度要求且不计较成本时的备选方案。这五种策略从简单机械到复杂智能各有优劣。在实际应用中通常需要根据文档类型、应用场景和对成本与性能的权衡来选择最合适的策略有时也会将多种策略组合使用。传统RAG检索增强生成与HyDE、Graph RAG和Agentic RAG。1. 传统 RAG (Traditional RAG)这是所有方案的基础也是其他方案改进的起点。核心流程如图的上半部分所示索引阶段将“额外文档”通过嵌入模型编码成向量并存入向量数据库中建立索引。检索与生成阶段当用户提出“查询”时同样用嵌入模型将其编码为向量然后在向量数据库中进行相似性搜索找到最相关的文档片段。将这些检索到的文档作为上下文与原始查询一起组合成一个提示发送给大语言模型由LLM生成最终响应。优点简单直接能有效利用外部知识减少LLM的幻觉。缺点高度依赖“词袋”模型的向量相似性。如果用户查询用语和文档中的用语不匹配例如查询是“怎么养盆栽”而文档中是“室内植物养护指南”就可能检索不到最相关的信息导致效果下降。2. HyDE (Hypothetical Document Embeddings)HyDE 旨在解决传统RAG查询与文档用语不匹配的问题。核心创新在检索之前先让LLM根据查询生成一个假设的答案或文档。流程如图下半部分所示用户输入“查询”。首先将查询发送给LLM让其生成一段“假设的文本”Hypothetical text。这段文本是LLM认为的、可能包含答案的理想文档的样式。将这段生成的假设文本而不是原始查询通过嵌入模型编码去向量数据库中进行相似性搜索。后续步骤与传统RAG相同用检索到的真实文档和原始查询一起提示LLM得到最终响应。优点生成的假设文本更丰富、更规范能更好地与向量数据库中的文档在语义上对齐从而显著提升检索质量特别是在处理模糊或简短的查询时。缺点增加了一次LLM调用开销稍大且生成的假设文本如果偏离太远也可能带来噪声。3. Graph RAGGraph RAG 引入了知识图谱来捕捉文档中深层的、结构化的语义关系超越传统的向量匹配。核心创新在索引阶段不是简单地将文档切成片段并向量化而是先用LLM从文档中提取实体Nodes和关系Relationships构建成一个知识图谱。流程如第二张图下半部分所示图生成使用“LLM图生成器”处理“额外文档”抽取出实体和关系形成知识图谱。对图谱中的实体和关系进行编码和索引可能同时使用向量索引和图数据库。对于查询既可以通过传统的向量相似性搜索也可以利用图的特性进行图遍历找到相关联的实体簇从而获得更广泛、更相关的上下文信息。优点能理解“苹果-生产-iPhone”这种复杂关系可以进行多跳推理例如通过公司CEO关联到其公司的产品。检索到的上下文不再是孤立的文本片段而是一个相互关联的知识子图信息量更大、逻辑性更强。缺点构建图谱的成本高昂技术复杂度也远高于前两种方案。4. Agentic RAGAgentic RAG 将智能体概念引入RAG使整个过程从静态流程变为动态、循环的决策过程。核心创新由一个LLM智能体作为“大脑”自主决定如何执行检索任务。它可以根据情况重写查询、选择数据源、判断信息是否足够、决定是否进行多轮检索。流程如第三张图下半部分所示用户输入“查询”。LLM智能体开始工作其步骤可能包括重写查询Rewrite the initial query以优化检索。判断是否需要更多细节判断是否需更多细节。选择工具/数据源选数据源可能包括向量数据库、互联网搜索、API工具等。执行检索并评估检索结果的相关性相关性判断。这个“决策-执行-评估”的循环可能会进行多次直到智能体认为它拥有了足够的信息来回答问题。最终智能体综合所有检索到的信息生成“最终响应”。优点极其灵活和强大能处理复杂、多步骤的查询任务更接近人类的研究方式。它不再是一次性的检索而是一个多轮的、目标驱动的过程。缺点延迟最高计算成本最大并且需要非常精心地设计智能体的提示词和工具。这四种方案代表了RAG技术从简单到复杂、从静态到动态的演进路径。传统RAG是基础且高效的方案。HyDE通过优化查询端来提升基础RAG的效果。Graph RAG通过优化知识表示索引端来挖掘深层信息。Agentic RAG则通过引入智能体彻底改变了RAG的执行范式使其具备了解决超复杂问题的能力。普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 大模型作为其中的重要组成部分 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 为各行各业带来了革命性的改变和机遇 。目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事02适学人群应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。vx扫描下方二维码即可本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发