2026/5/21 15:42:21
网站建设
项目流程
做网站用什么软件方便,刚刚中国宣布重大消息,郑州seo排名扣费,网上商城包括检索增强生成#xff08;RAG#xff09;技术能将语言模型从仅掌握通用知识的优秀对话工具#xff0c;转变为可针对企业专属文档、数据库及私密信息答疑解惑的强大系统。尽管基于互联网数据训练的大语言模型#xff08;LLM#xff09;通晓各类通用常识#xff0c;但它们无…检索增强生成RAG技术能将语言模型从仅掌握通用知识的优秀对话工具转变为可针对企业专属文档、数据库及私密信息答疑解惑的强大系统。尽管基于互联网数据训练的大语言模型LLM通晓各类通用常识但它们无法解读你公司的内部文档、个人研究笔记或是昨天的会议纪要。RAG技术通过将大语言模型与外部知识库对接为每一次查询检索相关信息并以此为上下文生成准确、有据可依的回答完美解决了这一痛点。搭建本地化RAG系统——即完全基于自有硬件运行不依赖任何云端服务——既能确保数据隐私绝对安全又能实现对敏感数据的人工智能驱动式检索与问答。对于初学者而言RAG是切入实用人工智能应用领域的便捷入口能快速创造直观价值。与需要机器学习专业知识和海量算力支持的模型训练、微调不同搭建基础RAG系统仅需简单几步将文档切分为文本块、转换为向量嵌入、存入向量数据库再将所有组件与本地大语言模型对接。其核心原理通俗易懂——与用户问题语义匹配的文档可作为生成回答的上下文同时开源生态提供的各类工具能够帮开发者处理大部分技术难题。本指南将从底层原理出发带你搭建可实际运行的RAG系统强调理解原理而非依赖黑盒解决方案。RAG的工作本质检索增强生成的工作流程看似简单实则精妙当用户提出问题时系统会在文档库中检索相关文本段落将这些段落注入大语言模型的上下文并引导模型基于检索到的信息生成回答。这种架构将知识存储文档中与推理能力大语言模型中解耦让模型能够处理训练期间从未接触过的信息。更重要的是更新知识库仅需对文档重新建立索引无需重新训练模型。检索阶段采用语义相似度匹配而非传统的关键词匹配。该技术会将用户查询和文档内容都转换为向量嵌入——即一组能够捕捉语义信息的数字序列再通过计算向量间的数学距离衡量相似度。在高维向量空间中与用户查询向量距离最近的文档大概率包含相关信息且不受字面表述差异的影响。生成阶段会同时接收用户原始问题和检索到的上下文综合这些信息生成回答。通过精心设计的提示词系统会明确引导模型基于检索到的上下文内容作答从而将模型的“幻觉”风险降到最低确保回答有据可依。完善的RAG系统还会标注信息来源方便用户对照原始文档验证答案。本地化RAG的核心价值搭建本地化RAG系统意味着完全掌控数据主权——文档数据无需离开自有基础设施查询记录不会被云端日志留存敏感信息全程仅限内部可见。无论是处理企业专有研究成果、法律文件、商业战略等机密资料还是应对有严格合规要求的业务场景本地化部署都能彻底规避云端服务带来的数据共享风险。从成本角度看本地化RAG系统更适合高频率使用场景。云端嵌入接口按文档嵌入量收费对于大规模文档库而言成本会快速累积云端大语言模型接口按token计费当查询需要调用多段长文本上下文时开销会显著增加。反观本地系统虽需承担前期硬件投入但每次查询均无额外边际成本当使用量达到一定规模时本地化部署的经济性优势会愈发明显。本地化部署的性能表现也与云端方案有所不同。本地RAG系统彻底消除了网络延迟——检索与生成在本地硬件上仅需毫秒级响应而云端服务的往返延迟通常高达数百毫秒。对于响应速度至关重要的交互式应用本地化部署能带来远超云端的用户体验。当然这种优势的代价是需要自行管理硬件、软件依赖和资源优化而非依赖云端的托管服务。RAG的三步工作流程文档预处理阶段加载文档 → 切分为文本块200-500词 → 生成向量嵌入 → 存入向量数据库查询处理阶段用户输入问题 → 转换为向量嵌入 → 在向量数据库中检索相似文本块 → 获取排名前3-5的匹配结果回答生成阶段构建包含“问题检索文本块”的提示词 → 发送至大语言模型 → 生成标注来源的回答搭建RAG系统组件选型搭建本地化RAG系统需选择三大核心组件嵌入模型、向量数据库和语言模型。选型直接决定系统的性能表现、资源需求和结果质量。对于初学者建议优先考虑部署简易性和资源友好性而非盲目追求尖端性能这样能更快搭建出可运行的系统。嵌入模型负责将文本转换为捕捉语义的向量。sentence-transformers库提供了多款兼顾效果与速度的预训练模型。其中all-MiniLM-L6-v2模型可生成384维向量嵌入在CPU上就能快速运行是初学者的理想选择。若硬件性能更强或对精度要求更高可选用all-mpnet-base-v2等更大规模的模型代价是嵌入生成速度会有所下降。向量数据库负责存储向量嵌入并支持高效的相似度检索。ChromaDB是初学者的首选——只需一条pip install命令即可完成安装无需配置独立服务器直接嵌入Python进程运行数据持久化存储在本地文件中。对于超大规模文档库FAISS的性能表现更优而Qdrant或Weaviate则适合构建多用户协作的服务端架构。语言模型选型需匹配硬件资源。70亿参数规模的模型如Llama 3在量化后仅需4-6GB显存就能提供出色的回答质量。借助Ollama工具只需一条命令即可完成模型部署无需手动配置复杂参数。硬件资源有限时可选用30亿参数的轻量模型高性能硬件则可支撑130亿甚至更大参数的模型以获得更优质的生成效果。文档预处理与文本分块文本分块是将长文档切分为短文本片段的过程要求片段足够短小以实现精准检索同时又足够完整以包含有意义的信息。分块大小是核心权衡点过小的文本块能精准定位特定事实但可能缺乏上下文过大的文本块包含更多背景信息但会混入无关内容。对于大多数场景400-600词的文本块约200-300个token是最优选择。文本分块策略有简有繁可按需选择基础字符计数分块直接按固定长度切分文本如text[:500]、text[500:1000]但可能会切断完整的句子或段落破坏语义连贯性。句子感知分块以句子为边界进行切分确保每个文本块都包含完整的语义单元。语义感知分块通过算法识别话题切换点围绕完整的语义主题切分文本但实现复杂度会显著提升。重叠分块技术可有效提升检索效果确保文本块边界附近的信息能出现在多个文本块中。例如使用500词的分块长度和100词的重叠区域每个文本片段都会与相邻片段有部分重合避免关键信息因落在分块边界而被遗漏。这种冗余设计会使存储和计算量增加约20%但能大幅提升边界信息的检索命中率。为文本块添加元数据可增强检索过滤能力和溯源能力。可将文档名称、页码、章节标题、创建日期、作者等信息与文本块绑定存储。这些元数据可用于实现精准检索如仅检索某份文档、回答溯源如标注信息来自某页或按时间范围过滤内容。对于大多数场景简单的键值对字典即可满足元数据存储需求。基础流程实现代码以下是一套完整、适合初学者的RAG系统实现方案import osfrom sentence_transformers import SentenceTransformerimport chromadbfrom chromadb.config import Settingsimport ollamaclass SimpleRAG: def __init__(self, collection_namemy_documents): 初始化RAG系统加载嵌入模型和向量数据库 print(Loading embedding model...) self.embedding_model SentenceTransformer(all-MiniLM-L6-v2) print(Setting up vector database...) self.chroma_client chromadb.Client(Settings( persist_directory./chroma_db, anonymized_telemetryFalse )) # 创建或获取向量集合 self.collection self.chroma_client.get_or_create_collection( namecollection_name, metadata{description: Document collection for RAG} ) print(RAG system ready!) def chunk_text(self, text, chunk_size500, overlap100): 将文本切分为带重叠的文本块 参数: text: 待切分的输入文本 chunk_size: 每个文本块的目标词数 overlap: 相邻文本块的重叠词数 返回: 文本块列表 words text.split() chunks [] for i in range(0, len(words), chunk_size - overlap): chunk .join(words[i:i chunk_size]) if len(chunk.split()) 50: # 设置最小文本块长度 chunks.append(chunk) return chunks def add_documents(self, documents, metadatasNone): 向知识库中添加文档 参数: documents: 文档文本列表 metadatas: 可选每个文档对应的元数据字典列表 all_chunks [] all_metadata [] all_ids [] print(fProcessing {len(documents)} documents...) for doc_idx, doc in enumerate(documents): # 切分当前文档 chunks self.chunk_text(doc) # 为每个文本块生成元数据 for chunk_idx, chunk in enumerate(chunks): all_chunks.append(chunk) # 构建基础元数据 metadata { doc_id: doc_idx, chunk_id: chunk_idx, chunk_size: len(chunk) } # 若用户提供了元数据则进行合并 if metadatas and doc_idx len(metadatas): metadata.update(metadatas[doc_idx]) all_metadata.append(metadata) all_ids.append(fdoc{doc_idx}_chunk{chunk_idx}) print(fGenerated {len(all_chunks)} chunks) print(Creating embeddings...) # 生成向量嵌入 embeddings self.embedding_model.encode( all_chunks, show_progress_barTrue, convert_to_numpyTrue ) print(Adding to vector database...) # 将文本块、嵌入向量和元数据存入ChromaDB self.collection.add( embeddingsembeddings.tolist(), documentsall_chunks, metadatasall_metadata, idsall_ids ) print(fSuccessfully added {len(all_chunks)} chunks to knowledge base) def retrieve(self, query, n_results3): 为查询检索相关文本块 参数: query: 用户查询语句 n_results: 需检索的文本块数量 返回: 包含检索文本块及元数据的字典 # 生成查询语句的向量嵌入 query_embedding self.embedding_model.encode( [query], convert_to_numpyTrue ) # 在向量数据库中检索相似文本 results self.collection.query( query_embeddingsquery_embedding.tolist(), n_resultsn_results ) return results def generate_answer(self, query, context_chunks): 基于检索到的上下文生成回答 参数: query: 用户问题 context_chunks: 检索到的文档文本块列表 返回: 生成的回答文本 # 构建上下文文本 context \n\n.join([ f[Source {i1}]\n{chunk} for i, chunk in enumerate(context_chunks) ]) # 构建提示词 prompt f基于以下上下文回答问题。如果上下文没有相关信息请直接说明。上下文:{context}问题: {query}回答: # 调用Ollama运行的本地模型生成回答 response ollama.generate( modelllama3, promptprompt, options{ temperature: 0.7, num_predict: 256 } ) return response[response] def query(self, question, n_results3): 完整的RAG查询流程检索生成 参数: question: 用户问题 n_results: 需检索的文本块数量 返回: 包含回答、来源文本和元数据的字典 print(fQuestion: {question}) print(\nRetrieving relevant information...) # 检索相关文本块 results self.retrieve(question, n_results) chunks results[documents][0] metadatas results[metadatas][0] print(fFound {len(chunks)} relevant passages) print(\nGenerating answer...) # 生成回答 answer self.generate_answer(question, chunks) return { answer: answer, sources: chunks, metadata: metadatas }# 示例运行代码if __name__ __main__: # 初始化RAG系统 rag SimpleRAG(collection_nameexample_docs) # 示例文档可替换为实际文档 documents [ 检索增强生成RAG是一种增强语言模型能力的技术 其核心是为模型提供来自外部数据源的相关信息。 与单纯依赖训练数据的模型不同RAG系统会先检索与查询相关的文档 再以这些文档为上下文生成回答。 这种方法能显著降低模型幻觉风险并让模型能够回答训练期间未接触过的问题。 , 向量数据库用于存储向量嵌入——即能够捕捉文本语义的数值表示。 当你在向量数据库中进行检索时系统会寻找与查询向量在数学上相似的文档向量 即便两者的字面表述完全不同。 这种语义检索技术比传统的关键词匹配检索强大得多。 , 本地人工智能系统完全基于自有硬件运行能提供极致的隐私保护和控制权。 与云端服务不同本地系统不会将数据发送到外部服务器非常适合处理敏感信息。 当然其代价是需要具备足够的硬件资源并自行完成系统维护工作。 ] # 为每个文档添加元数据 metadatas [ {source: RAG概述, topic: RAG基础}, {source: 向量数据库指南, topic: 技术原理}, {source: 本地AI指南, topic: 部署方案} ] # 将文档添加到知识库 rag.add_documents(documents, metadatas) # 测试查询 questions [ 什么是RAG它的工作原理是什么, 为什么要使用向量数据库, 本地人工智能系统有哪些优势 ] for question in questions: print(\n *70) result rag.query(question, n_results2) print(f\n回答: {result[answer]}) print(\n参考来源:) for i, metadata in enumerate(result[metadata]): print(f {i1}. {metadata.get(source, 未知来源)} - {metadata.get(topic, 无主题)})这套实现方案仅用不到200行代码就完成了文档切分、嵌入生成、向量存储、检索和回答生成的全流程。代码结构清晰逻辑易懂便于初学者学习和修改。优化RAG系统性能提升检索质量的技巧检索质量直接决定回答的准确性——如果相关信息未能被检索到再优秀的大语言模型也无法生成正确答案。除了基础的相似度检索以下技巧可有效优化检索效果查询扩展将用户的原始问题改写为多个不同表述分别检索后合并结果。这种方法能捕捉到与原问题语义相关但表述不同的文档。混合检索结合向量语义检索与传统关键词检索的优势。对于“可再生能源解决方案”这类概念性查询语义检索效果更佳而对于“CEO在第三季度财报会议上的发言”这类精准查询关键词检索则更高效。通过加权融合两种检索结果可应对多样化的查询需求。重排序机制使用交叉编码器模型对初步检索结果进行重排序。首先通过快速的双编码器模型检索出20-50个候选文本块再用精度更高但速度较慢的交叉编码器模型对候选结果重新评分。交叉编码器会同时编码查询语句和文档文本生成比独立向量更精准的相关性分数实现“先粗筛、后精排”的高效检索流程。上下文窗口管理策略大语言模型的上下文窗口容量有限决定了单次查询可输入的文本总量。例如一个4000token的上下文窗口需要同时容纳系统提示词、检索到的文档文本、用户问题和生成的回答。假设系统提示词和回答共占用500-1000token那么留给检索文本的空间约为3000token大致可容纳3个1000词的文本块或5个600词的文本块若文本块数量过多则会超出容量限制。文本块摘要压缩在将检索到的文本块输入大语言模型前先用一个轻量、快速的模型将每个文本块压缩至100-200词的摘要。这样既能在有限的上下文窗口中塞入更多信息源又能减少冗余内容代价是摘要过程可能丢失部分细节。动态检索调整根据查询的复杂度和检索结果的相似度动态调整检索的文本块数量。简单的事实性查询可能只需1个高相关性文本块而复杂的分析类查询则需要更多信息源。同时设置相似度阈值仅将相似度高于阈值的文本块纳入上下文避免低相关度内容占用token并干扰回答生成。RAG系统核心组件选型参考组件类型入门选型性能选型生产环境选型选型考量嵌入模型all-MiniLM-L6-v2all-mpnet-base-v2e5-large模型大小22MB – 1.3GB向量数据库ChromaDBFAISSQdrant/Weaviate部署难度分钟级 – 小时级语言模型30亿参数模型70亿参数模型如Llama 3130亿参数模型显存需求4GB – 40GB处理不同类型的文档文本类文档处理纯文本和Markdown文件是最容易处理的文档类型几乎无需预处理即可直接使用。通过with open(document.txt) as f: text f.read()即可读取文本内容再进行分块处理。对于Markdown文件建议使用解析库如markdown或mistune保留其结构信息——例如区分标题、代码块和列表而非将其视为无结构文本这样能提升检索的精准度。PDF文档的处理则需要专用的解析库以应对其复杂的排版格式。PyPDF2可实现基础的文本提取但在处理多栏排版、表格和扫描件时效果不佳。PyMuPDFfitz则具备更强的排版感知能力能正确识别文本的阅读顺序处理多栏文本的效果更优。对于无嵌入式文本的扫描版PDF需借助pytesseract等OCR工具将图像转换为文本转换质量取决于扫描件的清晰度。Word文档.docx格式基于压缩的XML格式存储需使用专用库提取文本。python-docx库可提取文档文本并保留段落结构还能读取表格和嵌入式图片。对于老旧的.doc格式文档可使用textract或antiword工具提取文本但可靠性不如现代文档格式。结构化数据集成电子表格、数据库、JSON文件等结构化数据需要与叙事性文本不同的处理方式。核心思路是将结构化数据转换为自然语言描述文本例如将CSV表格中的一行数据转换为“产品X售价50美元有红色、蓝色和绿色三种款式”而非直接使用原始数据。这种转换方式能让结构化数据被语义检索系统识别支持用户以自然语言进行查询。对于数据库表可通过SQL查询提取指定列或整行数据再按固定模板生成描述文本。例如对于产品表可生成格式为f产品名称{name}分类{category}描述{description}价格{price}美元的文本再将这些文本纳入RAG系统进行分块和嵌入从而支持“有哪些售价低于100美元的户外用品”这类自然语言查询。对于包含嵌套对象和数组的JSON文档则需要进行合理的扁平化处理或选择性字段提取。深度嵌套的JSON文档若完全扁平化可能会生成过于冗长的文本因此需要筛选包含核心信息的字段。对于API响应日志、配置文件等结构化记录可通过自定义模板提取关键信息转换为易读的文本描述。常见问题与解决方案检索失败的常见原因及对策检索失败指的是知识库中存在相关信息但系统未能检索到导致模型回答错误或表示“无法回答”。文本块边界问题关键信息被切分在两个文本块中单个文本块无法提供完整的上下文导致检索不到。解决方案是采用重叠分块技术或使用语义感知分块算法确保相关信息被包含在同一个文本块中。词汇表述差异用户查询与文档的表述方式不同例如用户问“机器学习模型”但文档中只出现“神经网络”“深度学习”等术语导致语义匹配失败。解决方案是采用查询扩展技术生成原问题的多个同义表述后再进行检索或选用对词汇变体更鲁棒的嵌入模型。低相关度内容干扰检索结果混入大量低相关度文本块占用上下文窗口并干扰回答生成。解决方案是设置相似度阈值仅将相似度高于阈值的文本块纳入上下文若没有文本块达标则直接告知用户“未找到相关信息”避免模型基于无关内容“胡编乱造”。回答质量问题及优化方法模型幻觉问题生成的回答与检索到的上下文矛盾或包含上下文没有的信息。这是因为大语言模型的固有知识与检索到的信息发生冲突或提示词对模型的约束不足。解决方案是强化提示词指令明确要求模型“仅基于提供的上下文回答”“若上下文无相关信息直接说明”减少模型依赖固有知识作答的可能性。来源标注缺失问题回答内容正确但未标注信息来源或标注错误。解决方案是在检索到的文本块中嵌入来源标识如[来源1: document_name.pdf]并在提示词中明确要求模型标注信息来源同时可通过后处理步骤自动将检索到的文本块来源附加到回答末尾确保溯源能力。回答冗长问题生成的回答过于啰嗦缺乏针对性。解决方案是在提示词中明确要求“用2-3句话简洁回答”对于事实性查询可采用抽取式问答替代生成式问答——即直接从检索到的文本块中提取与问题相关的句子作为回答这种方式生成的答案更精准、更易验证但语言流畅度略逊于生成式回答。系统维护与更新策略知识库增量更新当文档内容发生变化时无需对整个知识库重新建立索引只需进行增量更新。为每个文档分配唯一ID并记录版本信息当文档修改后删除该文档对应的旧文本块再将更新后的文档重新切分、嵌入并入库其他文档则保持不变。这种增量更新方式比全量重建索引更高效适合大规模、动态更新的知识库。嵌入模型升级升级嵌入模型可提升检索质量但需要注意——不同模型生成的向量嵌入不兼容混合使用会导致相似度计算失效。因此升级嵌入模型后需对所有文档重新生成嵌入向量并入库建议在业务低峰期执行全量重建操作。系统监控与调试通过记录检索结果和用户反馈持续优化系统性能。例如跟踪哪些查询未能检索到相关信息、哪些文本块频繁出现在回答中、用户对回答的满意度如何等。这些数据能帮助开发者发现检索质量的短板、识别知识库的内容缺口并针对性地优化分块策略、提示词设计和模型选型。RAG技术生态仍在快速发展嵌入模型、检索策略和数据集成方案持续迭代但核心原理始终稳定。掌握这些核心知识——理解分块策略对检索效果的影响、调整相似度阈值、设计高效的提示词——能让你根据实际需求构建出越来越完善的知识库系统。无论你是想打造个人研究助手、企业级知识库还是特定领域的智能问答系统RAG技术都能为你提供一套强大的架构将静态的文档资源转化为可交互的、由人工智能驱动的知识库系统并全程由你掌控。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】