2026/4/6 7:13:26
网站建设
项目流程
简述网站建设在作用,常见的erp软件有哪些,嵌入式软件开发培训班,成都房天下房产网什么场景需要后训练
1. 若仅需模型遵循少量指令#xff08;如回避敏感话题或禁止公司间比较#xff09;#xff0c;通过提示工程即可实现#xff0c;但该方法虽简单却不够稳定
2. 如需查询实时数据库#xff0c;检索增强生成或基于搜索的方法可能更适用
3. 创建领域专用…什么场景需要后训练1. 若仅需模型遵循少量指令如回避敏感话题或禁止公司间比较通过提示工程即可实现但该方法虽简单却不够稳定2. 如需查询实时数据库检索增强生成或基于搜索的方法可能更适用3. 创建领域专用模型如医疗或网络安全语言模型时通常需要持续预训练结合标准后训练先让模型学习领域知识至少需10亿标记再学习用户交互4. 当需要严格遵循20条以上指令或提升特定能力如构建强SQL模型、函数调用模型或推理模型时后训练最能发挥价值——它能可靠改变模型行为并提升目标能力但若实施不当可能导致其他未训练能力退化SFT监督式微调Supervised Fine Tuning一种把通用语言模型转换成任务型助手的方法。通过训练提示与理想回应的成对数据模型学会模仿示例中的回答从而能够按照指令行事、展示期望的行为并正确调用工具。核心是让基础模型只根据提示预测下一个 token学会生成预期的回答。基础模型未经调整的 LLM 往往会给出泛泛或重复的回应例如面对“你是谁”这样的询问它可能只是反问一句而不是回答。带标签的数据集收集并整理用户提示与理想指令回应的配对例如“请告诉我你的身份——我是 Llama…”、“你最近怎么样——我很好”。对这些配对进行微调通过最小化回应的交叉熵损失来训练模型这一损失鼓励模型最大化在每个提示条件下生成目标回应的概率。微调后的模型完成训练后模型可以针对新的查询给出合适的回复。最佳使用场景激发新的模型行为将预训练模型转变为能遵循指令的助理。让不具备推理能力的模型学会基本推理。让模型在没有明确说明的情况下使用特定工具。提升模型能力利用强大的大模型生成高质量的合成数据通过训练把这些能力“蒸馏”到小模型中。数据准备SFT 的效果高度依赖于数据质量。优质且多样的样本能让模型学到有用的行为劣质样本则会让模型模仿不良习惯。蒸馏用更强的指令模型生成回复再训练小模型去模仿这些回复把强模型的能力迁移到弱模型上。Best of K / 拒绝采样同一提示生成多个候选回复用奖励函数选出最好的作为训练数据。过滤从SFT 数据集中挑选出回应质量高且提示多样性的样本形成精简的高质量数据集。微调方法全参数微调对每一层加入一个完整的权重更新矩阵 ΔW 即修改所有参数。这可以显著提升性能但需要大量存储和计算资源。参数高效微调例如 LoRA低秩适配通过在每层引入小的低秩矩阵 A 和 B 来调整模型参数。这减少了可训练参数的数量节省显存缺点是学习和遗忘都更有限因为更新的参数更少。这两种策略可以与任何训练方法结合。根据资源约束和性能要求你可以选择全微调或参数高效微调。后者在硬件条件有限的情况下尤为受欢迎。DPO一种离线强化学习直接偏好优化被视为一种从正面和负面回复中进行对比学习的方法。和监督微调一样我们可以从任何大语言模型开始通常建议使用指令微调大语言模型这种模型已经可以回答用户的一些基本问题。比如用户问“你是谁”模型回答说“我是Llama”。在这种情况下我们希望通过整理标注员准备的一些对比数据来改变模型身份。这样的标注员可以是人工标注员甚至也可以是一些基于模型的标注员他们为我们整理数据集。这时用户可能会问“告诉我你的身份”我们至少需要准备两个回复以便使直接偏好优化DPO起作用。 我们可以准备一个回答说“我是Athene”另一个回答说“我是大语言模型”。其中“我是Athene”被标记为首选回答而“我是大语言模型”被标记为次选回答。通过这种方式当模型回答与身份相关的问题时我们试图促使它说“我是Athene”而非“我是大语言模型”。收集到这类对比数据后就可以使用准备好的数据在这个语言模型上执行直接偏好优化DPO。在本节课中我们很快就会深入探讨这个损失函数。 在大语言模型上执行直接偏好优化DPO后我们将得到一个经过微调的大语言模型LLM希望它能从正向和负向样本中学习它会尝试模仿偏好的样本如果用户进一步询问“你是谁”希望助手回答“我是Athene”而不是“我是Llama”使用这种直接偏好优化方法改变模型的身份。DPO损失函数某个对数差值的sigmoid函数的负对数其中 σ 实际上就是sigmoid函数而 β 是一个非常重要的超参数我们可以在DPO的训练过程中对其进行调整。 β 值越高这个对数差值就越重要。在这个大括号内我们有两个对数差值分别关注正样本和负样本。首先有两个概率比值的对数。分子即 π_θ 是一个微调后的模型。这里我们关注的是对于微调后的模型在给定提示的情况下产生正面回复的概率是多少。分母是一个参考模型它是原始模型的副本权重固定不可调整。只关注原始模型在给定提示的情况下产生那些正面回复的概率。同样对于负样本我们也有对数比值其中 π_θ 是你微调后的模型 θ 是你在这里想要调整的参数。而 π 是一个固定的参考模型可以是原始模型的副本。本质上这个对数比值项可以被看作是奖励模型的重新参数化。如果你将其视为奖励模型那么这个DPO损失实际上就是正样本和负样本之间奖励差异的sigmoid函数。本质上DPO试图最大化正样本的奖励并最小化负样本的奖励。关于为什么这样的对数比值可以被视为这种奖励模型的重新参数化的详细信息我建议阅读原始DPO论文在那里找到详细内容。直接偏好优化DPO最佳用例 改变模型行为当想对模型响应进行小的修改时直接偏好优化DPO非常有效。这包括改变模型特性或使模型在多语言响应、指令遵循能力方面表现更好或者改变模型一些与安全相关的响应。提升模型能力。由于直接偏好优化DPO能够同时看到好样本和坏样本的对比特性在提升模型能力方面它可能比监督微调SFT更有效特别是当你能使直接偏好优化DPO实现对齐时对提升能力来说效果甚至会更好。这里有一些用于直接偏好优化DPO的数据整理原则有几种常见的方法可用于高质量的DPO数据整理。一、校正方法通常可以从原始模型生成回复将该回复作为一个主动样本然后进行一些改进使其成为一个正向回复。在这种情况下一个最简单的例子是改变模型的身份你可以从当前模型自身生成的一个负面例子开始比如对于“你是谁”这样的问题模型可能会说“我是Llama”。 你可以直接进行修改并用你想要的任何模型身份替换这个Llama。在这种情况下对于同样的问题我们希望模型说“我是Athene”所以我们将这个回复设为正向的。通过这种方式你可以使用这种基于纠正的方法自动创建大规模、高质量的对比数据用于DPO的训练。二、在线或策略内DPO的一种特殊情况。在这种情况下你希望从模型自身的分布中生成正向和负向示例。 实际上你可以针对同一个提示从你想要微调的当前模型中生成多个回复然后你可以收集最佳回复作为正样本最差回复作为负样本。之后你再判断哪个回复更好哪个回复更差。你可以使用一些奖励函数或人工判断来完成这项工作。另外可能需要注意的第二点是在直接偏好优化DPO过程中避免过拟合。因为直接偏好优化本质上是在进行某种奖励学习它很容易过度拟合到一些捷径上。与非首选答案相比其中一个首选答案可能有一些捷径可学。 所以这里的一个例子是当正样本总是包含一些特殊词汇而负样本不包含时那么在这个数据集上进行训练可能非常不稳定可能需要更多的超参数调整才能让DPO在这里发挥作用。在线强化学习在线强化学习通常让模型自主探索更好的响应。 其典型流程如下准备一批 Prompt输入提示将这些 Prompt 输入语言模型模型生成对应的 Response将 (prompt, response) 对送入 奖励函数Reward Function奖励函数为每对 (prompt, response) 打分获得 (prompt, response, reward) 三元组使用这些数据来更新语言模型。模型更新可采用不同方法目前主要有PPOProximal Policy Optimization和 GRPOGroup Relative Policy Optimization奖励函数训练好的奖励模型Reward Model收集多个模型响应由人类进行偏好标注选择更优的响应。使用这些人类偏好数据训练奖励模型。奖励模型通过优化损失函数学习Llog(σ(r_j-r_k))若人类认为响应 j 优于 k则鼓励模型提升$r_j$降低$r_k$。特点通常基于已有的 Instruct 模型初始化通过大规模人类或机器生成偏好数据训练可应用于开放式任务如聊天能力、安全性提升等但在“正确性导向”的任务如代码、数学、函数调用中可能不够精确。可验证奖励Verifiable Reward在“正确性导向”场景中更推荐使用可验证奖励数学任务验证模型输出是否与标准答案匹配。编程任务通过 单元测试Unit Tests 检验代码执行结果是否正确。特点需提前准备真值Ground Truth或测试集准备成本较高但奖励信号更精确可靠更适合训练推理类模型Reasoning Models如代码、数学领域。PPOProximal Policy Optimization第一代 ChatGPT 所使用的在线强化学习算法。工作流程输入一组查询queries ( q )通过 策略模型Policy Model即语言模型本身生成响应响应被送入以下模块参考模型Reference Model计算 KL 散度限制模型不偏离原始分布奖励模型Reward Model计算奖励价值模型Value Model 或 评论者模型Critic Model为每个 Token 分配价值。使用 广义优势估计Generalized Advantage Estimation, GAE 来计算每个 Token 的 优势函数Advantage反映该 Token 的贡献。PPO 的目标函数每个 Token 拥有独立的优势值反馈粒度更细但需额外训练价值模型 → 占用更多 GPU 内存。GRPOGroup Relative Policy Optimization由 DeepSeek 提出用于优化大型语言模型的推理能力。工作流程对每个 Prompt模型生成多个响应 ( O_1,O_2,...,O_g )对每个响应计算奖励Reward与参考模型的 KL 散度对同一组Group响应计算相对奖励Relative Reward将相对奖励作为整个响应的优势值使用此优势更新策略模型。主要区别不再需要价值模型Value Model所有 Token 在同一响应中共享相同优势值更节省显存但优势估计较粗糙。特征PPOGRPO优势估计基于价值模型(Value Model)的精细估计基于响应组的相对奖励(Relative Reward)计算粒度每个Token拥有独立优势整个响应共享同一优势显存需求较高需训练Critic较低无Critic样本效率高样本利用率好较低需更多样本奖励适配适合连续或模型化奖励适合二元/可验证奖励应用场景聊天、对齐、安全优化数学、代码、推理任务参考https://github.com/datawhalechina/post-training-of-llms