2026/5/21 15:51:17
网站建设
项目流程
wordpress站酷主题,有域名和服务器怎么建网站,wordpress去除评论表单,织梦网站底部黑链概述
LLM 经过微调#xff0c;符合人类的价值观和政策。
然而#xff0c;在实践中#xff0c;敌意提示、句子解析或生成过程中的细微变化经常导致 对齐漂移 现象#xff0c;即模型产生不安全的输出。
以往的研究主要依赖于外部衡量标准#xff0c;如拒绝率和输…概述LLM 经过微调符合人类的价值观和政策。然而在实践中敌意提示、句子解析或生成过程中的细微变化经常导致 对齐漂移 现象即模型产生不安全的输出。以往的研究主要依赖于外部衡量标准如拒绝率和输出的有害性但一直缺乏一个框架来探究模型漂移的原因。本文提出了一个名为 TRACEALIGN 的综合框架来解决这一问题。TRACEALIGN 明确跟踪训练数据中哪些记忆可以追溯到有害输出并通过一种名为信念冲突指数BCI的测量方法量化其来源。此外它还结合了三种防御措施–TRACESHIELD推理过程中的拒绝机制、Contrastive Belief Deconfliction Loss学习过程中的惩罚措施和 Prov-Decode生成过程中的搜索控制–从而减少了高达 85% 的漂移。换句话说这项研究的意义在于它揭示了模型所持 信念 的不一致性而不仅仅是观察输出并根据其原因提出了可解释和可重复的对策。建议的方法TRACEALIGN 的核心在于 “追踪模型输出背后的训练信念”。首先一个名为 TRACEINDEX 的基于后缀数组的索引被用来匹配生成文本中的子串跨度和训练语料。这样模型就能明确识别哪些文档片段被存储和重用。然后引入信念冲突指数 (BCI)以量化所发现的跨度的罕见程度以及它们与训练分布的偏差程度。这样就可以测量 “危险记忆的重新激活”而不仅仅是生成。然后提出了三种干预措施。首先TRACESHIELD 是推理过程中的一个过滤器可立即拒绝包含高 BCI 跨度的响应。第二CBD Loss 为 DPO 学习增加了一个惩罚项抑制了危险记忆的生成。第三Prov-Decode 会在解码过程中拒绝高风险候选句从而生成安全的句子。这些方法结合起来将对齐方式从 后修正 转变为 “信念衍生的预预防”。实验为了测试所提方法的有效性本文构建了一个名为 “对齐漂移基准”ADB的新型评估基准。ADB 由五个领域爆炸、网络犯罪、自残、仇恨言论和金融诈骗共 5,200 个敌对提示组成表面上看以教育或历史背景为幌子旨在诱发危险反应。在这种环境下使用 LLaMA-2、OLMo-2 和 NeoX 等多个模型进行了对比实验。结果表明在基线中超过 40% 的提示中出现了危险输出但三种 TRACEALIGN 方法的组合将漂移率降低到了 6.2%。同时拒绝的自然度和一致性得分也得到了提高这证实了在保持模型实用性的同时还能显著提高安全性。此外在烧蚀实验中每种防御措施都被单独或组合使用结果表明三方组合最为有效。这表明TRACEALIGN 是一种兼具理论框架和实际效果的方法。