2026/5/20 17:31:13
网站建设
项目流程
深圳市门户网站建设多少钱,做租房网站,网站域名信息查询,揭阳网站制作软件在构建RAG#xff08;Retrieval-Augmented Generation#xff09;系统时#xff0c;很多人一上来就关注模型选型、向量数据库或召回算法#xff0c;却往往忽略了一个决定系统效果上限的基础环节——切片#xff08;Chunking#xff09;。
切片并不是简单地把文本“分段”…在构建RAGRetrieval-Augmented Generation系统时很多人一上来就关注模型选型、向量数据库或召回算法却往往忽略了一个决定系统效果上限的基础环节——切片Chunking。切片并不是简单地把文本“分段”而是一次将原始知识转化为可被模型高效检索和理解的结构化语义单元的过程。切片方式选得好检索更准、上下文更干净切片设计不合理再强的模型也很难给出稳定答案。01—什么是切片Chunking在RAGRetrieval-Augmented Generation检索增强生成体系中切片Chunking是决定检索效果上限的核心步骤之一本质上它解决的是 如何把“人类能读懂的长文档”转化为“大模型能高效检索和理解的最小语义单元”。02—为什么RAG一定要做切片1️⃣ 技术层面的刚性约束Token限制主流大模型都有上下文长度限制长文档必须拆分计算效率小片段向量化、检索、拼接成本更低内存与稳定性避免一次性处理超大文本导致OOM或请求失败2️⃣ 检索效果的决定因素相关性更高语义更聚焦的片段更容易被向量检索命中噪音更少避免“相关一句话大段无关内容”一起被召回上下文更可控有利于后续prompt拼接和答案生成3️⃣ 成本与系统规模控制Token成本减少无效上下文输入向量库存储成本避免超大chunk整体吞吐能力提升QPS与响应速度03—常见切片方法1️⃣ 固定长度切片Fixed-size Chunking核心思路按固定字符数 / Token数进行拆分不关心语义边界。实现方式每500token一个chunk优点实现成本最低几乎没有额外逻辑吞吐量高适合批量离线处理chunk数量可预测便于容量评估缺点极易切断语义单元定义、结论、代码逻辑同一个概念可能分散在多个chunk对Query稍复杂的问答命中率较低适用场景代码、日志、表结构、接口定义内容本身高度结构化对语义连续性要求不高的场景2️⃣ 语义切片Semantic Chunking核心思路以“语义完整性”为第一原则在语义边界处分割文本。实现方式按句子 相似度聚合基于embedding相似度检测主题漂移使用LLM判断是否该分段优点单个chunk通常能完整回答一个子问题向量检索相关性明显提升生成阶段上下文更干净缺点切片阶段需要额外模型或embedding计算离线处理时间明显增加chunk数量不可预测容量规划更复杂适用场景文章、报告、知识型内容高质量问答 / 知识助手chunk数量不敏感但质量要求高的系统3️⃣ 结构化切片Structure-aware Chunking核心思路严格遵循文档已有的逻辑结构进行切分。切分依据Markdown标题、段落、列表HTMLh1–h6、section、articlePDF章节、页、目录层级技术文档模块 / 接口 / 示例优点贴近人类阅读方式chunk可读性极强方便调试容易做层级化检索章节 → 段落缺点强依赖原文档结构质量扫描版PDF、格式混乱文档效果差chunk大小不均需要二次裁剪适用场景官方文档、产品手册、技术规范有明确标题层级的内容企业内部知识库4️⃣ 重叠切片Overlapping Chunking核心思路通过相邻chunk的内容重叠避免关键信息刚好被切断。典型参数chunk_size 500overlap 50 ~ 100优点明显降低“定义在上一段、解释在下一段”的问题提高召回率尤其对模糊Query友好对固定切片是几乎必选的增强手段缺点chunk数量上升≈ 1.1–1.3 倍向量库体积变大生成阶段需要去重或压缩上下文适用场景问答系统高召回优先的知识检索Query不够精确的用户场景5️⃣ 递归切片Recursive Chunking核心思路多层级逐步拆分直到满足目标chunk大小。典型递归顺序章节 → 段落 → 句子 → Token优点能适配高度异构文档chunk尺寸稳定语义相对完整常用于通用型知识系统缺点实现逻辑复杂调参成本高每一层都有策略适用场景多来源、多格式文档企业级知识中台RAG基础设施型产品6️⃣ 混合切片Hybrid Chunking强烈推荐核心思路不同层次、不同策略的组合使用。常见组合方式结构化切片 → 固定长度二次裁剪固定切片 overlap章节级索引 段落级向量语义切片 递归兜底优点兼顾召回率与成本可针对不同Query路由不同层级易于演进和调优04—实战中的几个关键建议1️⃣ 控制切片粒度太小 → 语义破碎太大 → 检索不准经验值200–800 字根据场景动态调整2️⃣ 合理使用重叠重叠比例10%–20%优先在自然语义边界句号 / 段落切分确保定义、结论、公式不被硬切3️⃣ 用指标而不是感觉评估召回准确率相关问题是否命中正确chunk答案完整性是否需要频繁“猜上下文”性能指标响应时间、向量数量、成本05—总结RAG 的效果上限不在模型而在切片。切片不是简单的“分段”而是一次**工程与语义的权衡设计**选对策略RAG才能真正做到检索准、生成稳。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】