东莞市哪里有做网站公司[ 1500元做网站_验收满意再付款! ]_沛县网络公司
2026/4/6 5:43:49 网站建设 项目流程
东莞市哪里有做网站公司,[ 1500元做网站_验收满意再付款! ]_沛县网络公司,贵州网站建设营销公司哪家好,承德 网站建设文章详细介绍了金融领域RAG系统的技术实现#xff0c;从PDF文档到向量索引的完整流程#xff1a;解析阶段将PDF转为结构化对象树保留文档结构#xff1b;切分阶段基于语义边界生成带元数据的文本块#xff1b;向量化阶段将文本转为向量表示#xff1b;存储采用双库联动机制…文章详细介绍了金融领域RAG系统的技术实现从PDF文档到向量索引的完整流程解析阶段将PDF转为结构化对象树保留文档结构切分阶段基于语义边界生成带元数据的文本块向量化阶段将文本转为向量表示存储采用双库联动机制检索模块实现向量与BM25关键词的混合检索架构并通过Cross-Encoder精排。强调代码优化需围绕具体业务场景需求如金融领域对专业术语的精准召回。开篇在之前的[一个金融研报RAG应用「离线解析」和「在线问答」双链路详解]文章中是从RAG系统的上帝视角梳理了数据从入库到检索的流动逻辑。但当真的有一堆文档需要作为知识库给模型的时候好像还是无从下手。这篇文章是接着之前的金融研报项目深入代码层面梳理了从保险PDF文档到向量检索的代码逻辑。一共会分为四个部分先从数据的角度梳理整个流程再分别展开解析、切分、检索这三个模块后面三章涉及到的代码会比较多如果不太看得懂代码的话可以看一看代码注释理解一下逻辑从「静态文档」到「向量索引」一个PDF文档「入库」的过程可以拆解为以下四个状态流转PARSED已解析- CHUNKED已切分- EMBEDDED已向量化- INDEXED已索引1、解析阶段不仅仅是提取文字如果只是简单的提取文本text pdf.read()就会丢失掉最重要的**结构信息。**标题、正文、页眉、页脚、表格如果全部混成一团字符串后面的切分就会一团糟。因此在工业级RAG中解析阶段的输出不是一段文本而是一个结构化的文档对象树层级结构谁是父章节谁是子章节。样式信息字号、加粗、缩进这些是判断标题级别的重要依据。版面信息表格的行列关系、图片的上下文位置。 在这个阶段文档仅仅只是被「看懂」了。2、切分阶段元数据的诞生之地拿着上一步得到的结构化对象就可以开始切分了。这个阶段的核心任务有两个确定边界利用解析阶段得到的章节、段落信息尽量让切分点落在自然的语义边界上比如句号、段落结束符而不是生硬地切断一句话。生成元数据Metadata不是切完就扔进数据库而是在切分的同时给每个Chunk办一张身份证chunk_id它的唯一标识。section_path它属于《保险条款》第二章责任免除。page_num它在第 15 页。prev/next_id它的前文是Chunk A后文是Chunk B。 此时得到的是一批「携带丰富身份信息的文本块」。3、向量化阶段文本转数学在这个阶段系统会遍历上一步生成的所有Chunk提取其中的content字段调用 Embedding 模型如bge-large-zh将其转化为一个高维向量。 这里只对文本做向量化元数据通常不需要向量化而是直接存储用于过滤。4、存储与索引双库联动存完了是不是就能检索了呢还不可以为了兼顾「搜得准」和「看得懂」通常会把数据存两份逻辑上是这样具体按情况而定向量索引存放chunk_idvector。 用来算余弦相似度快速找到Top-K的chunk_id。文档存储存放chunk_idtextmetadata。 用来存原始内容。当向量索引找到ID后去这里把人能看懂的字和元数据也捞出来。再回顾一下这条链路PDF- 解析成结构化对象。结构化对象- 切分成带元数据的Chunk。Chunk- 向量化成Vector。Vector- 建索引发布上线。在线检索- Query 变向量去索引里找 Chunk最后由 LLM 生成答案。搞清楚了整体的流程接下来深入到每一个环节的代码实现就会发现所有复杂的代码无非是在为这张流程图里的某一个箭头做优化。解析模块解析的质量直接决定了RAG的上限。虽然可以直接使用通用的PyPDF2但结果可能会不尽人意也可以使用Deepdoc (LayoutLMv3 PaddleOCR)但面对复杂场景仍需定制化改造。1、攻克表格解析保险文档中最难处理的是表格。文档中存在三类表格单一的解决方案无法通吃。这个项目中设计了一套分流策略有边框表格Deepdoc 原生处理准确率 95%。无边框/半结构化表格这是重灾区Deepdoc识别率仅62%。针对无边框表格引入MinerU 2.5但因为它推理慢不能全部都用这个方法需要在解析前置加一个分类器只对由于「对齐」但「无框」的区域调用MinerU2、扫描件的去噪与去水印金融存量文档中有30%是扫描件且常常会带有「仅供内部使用」的红色印章或水印。这些干扰会导致 OCR 将文字识别为乱码。这个项目的做法是摒弃传统的全局高斯滤波会模糊文字采用动态预处理Pipeline 这一步的优化让OCR在扫描件上的准确率直接提升了21个百分点。切分模块在之前的那篇文章中提到了naive_merge基于Token数的简单装箱。但这种方法在保险条款面前则会失效。比如条款原文“本保险承保…但以下情况除外(1)xx…(2)yyy…”固定切分的问题切分点恰好落在“但以下情况除外”之前。Chunk A“本保险承保…”Chunk B“(1)xx…(2)yyy…”后果用户问“xx保不保”系统检索到 Chunk B但缺少了前文的“除外”限定导致 LLM 回答“保”。为了解决这个问题需要全面重构切分策略从「固定长度切分」进化到了「语义感知切分智能 Overlap」。1、基于文档树的递归切分 保留文档的章节感。切分逻辑不再是线性的而是树状的优先按章节切 - 章节过长按小节切 - 还长按段落切2、智能Overlap 传统的Overlap如固定 100 tokens可能会把句子拦腰截断。因此可以设计基于句子边界的Overlap。它会回溯前一个Chunk找到最近的句号、问号或感叹号确保Overlap的部分是一句完整的话。此外如果Chunk里只存了文本和向量却缺少元数据那么这个chunk就失去了灵魂。‍↔️ 比如无法实现以下功能答案溯源用户问“核辐射在保障范围内吗”系统回答“根据第3条 保险责任 3.2 责任免除 (2)核辐射不在保障范围。”检索加权关键条款责任、免责、费率的权重×1.5识别方法关键词匹配 章节标题判断上下文扩展如果检索到的chunk语义不完整自动拉取前后chunk。例如检索到但以下除外“自动拉取前一个chunk的承保范围”。 所以不能仅仅是存储文本需要将Chunk定义为一个富信息的对象。可以扩展为四个维度基础信息、结构信息、类型信息和位置信息。检索模块到了检索阶段发现单一的向量检索在金融领域有致命弱点对低频专业词汇不敏感。比如用户问“犹豫期退保扣费吗”向量模型可能会召回「退保流程」相关的文档因为它觉得语义很近但却漏掉了包含「犹豫期」这个精确关键词的条款。因此需要构建混合检索架构并引入了动态权重。1、架构升级向量BM25向量检索使用 bge-large-zh-v1.5 处理语义查询如“孩子摔伤怎么赔”。关键词检索使用BM25处理精确查询。2、核心算法基于意图识别的动态权重这是检索系统的核心部分不能对所有的用户问题都使用固定的0.5 * Vector 0.5 * BM25。需要先判断用户的意图是查定义精确还是问咨询语义呢3、结果融合RRF (倒数排名融合)如果使用加权求和需要对分数做归一化Vector是0-1BM25可能是 0-50这样很难调平。但如果使用RRF它不看分数只看排名会更加鲁棒4、Cross-Encoder精排为什么还要进行一次精排呢 经过混合检索召回的Top-10文档虽然相关但排序可能不准。因此额外引入 bge-reranker-large 模型进行精排。但精排速度慢一般只精排Top-10而不是Top-50向量检索Bi-Encoder是「用户query」和「知识库文档」独立编码而 Cross-Encoder 是将query和文档拼接在一起输入 BERT能捕捉更细微的交互语义。至此检索链路的使命完成如何系统的学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。一直在更新更多的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】01.大模型风口已至月薪30K的AI岗正在批量诞生2025年大模型应用呈现爆发式增长根据工信部最新数据国内大模型相关岗位缺口达47万初级工程师平均薪资28K数据来源BOSS直聘报告70%企业存在能用模型不会调优的痛点真实案例某二本机械专业学员通过4个月系统学习成功拿到某AI医疗公司大模型优化岗offer薪资直接翻3倍02.大模型 AI 学习和面试资料1️⃣ 提示词工程把ChatGPT从玩具变成生产工具2️⃣ RAG系统让大模型精准输出行业知识3️⃣ 智能体开发用AutoGPT打造24小时数字员工熬了三个大夜整理的《AI进化工具包》送你✔️ 大厂内部LLM落地手册含58个真实案例✔️ 提示词设计模板库覆盖12大应用场景✔️ 私藏学习路径图0基础到项目实战仅需90天第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询