2026/5/21 13:54:32
网站建设
项目流程
广州网站制,做网站兼容性怎么设置,id怎么转wordpress,网站设计中搜索界面怎么做重要的事情说三遍#xff01;重复提示词竟能让非推理模型准确率狂飙
原创 Victor 硅基捕手维克托 2026年1月26日 08:18 新加坡 论文链接#xff1a;https://arxiv.org/abs/2512.14982 发布时间#xff1a;2025.12.17 平时咱们在用大模型#xff0c;尤其是那些非思考类的模…重要的事情说三遍重复提示词竟能让非推理模型准确率狂飙原创 Victor 硅基捕手维克托2026年1月26日 08:18新加坡论文链接https://arxiv.org/abs/2512.14982发布时间2025.12.17平时咱们在用大模型尤其是那些非思考类的模型的时候经常会遇到一种崩溃的情况你明明在要求里写得清清楚楚让它“不要输出多余的废话”或者“必须以某种格式开头”它偏偏就像耳边风一样直接给忽略了。这时候我有一些习惯性的办法把重点词加粗或者套上引号甚至在开头说一遍、结尾再说一遍。没想到这种带点情绪的“复读”操作竟然被谷歌的研究员给专门写成了论文还证明了它在科学上是非常有效原来这也可以核心做法简单到不可思议谷歌的这篇论文核心观点就一句话在不使用推理模式时直接把提示词复制一遍拼在一起发送即[指令][指令]就能显著提升大模型的性能。基线输入形式及重复输入形式而且最神奇的是这种操作几乎没有副作用。它不会增加模型生成的字数也不会让你觉得回复变慢了因为它增加的只是“预填充Pre-fill”阶段的计算量这部分在硬件上是可以并行处理的。为什么“复读”能救命咱们先聊聊底层逻辑。我觉得这其实跟Transformer架构的“注意力机制”有很大关系。非思考模型在生成答案时它其实是在玩一场概率游戏。如果你的指令只出现一次模型在处理长文本时注意力可能会分散不小心就把你那条关键的指令给漏掉了。接着我们从直观感受上看看为什么这种方法可行这就好比咱们人类的“快思考”和“慢思考”。非思考模型就像是处于“快思考”模式你问它问题它不过脑子直接就吐答案。而这种把提示词重复一遍的操作就像是你在它耳边连喊了两遍“看重点看重点”强行把它的注意力拉回到你的指令上。相比之下像o1或者DeepSeek-R1这种“思考模型”它们自带“慢思考”属性。你去看它们的思考链路它们往往会先复述一遍用户的要求或者自己在那儿嘀咕“用户让我干啥来着哦不能有废话。”这种复述需求或自我纠检的过程其实已经起到了“重复输入”的效果所以这篇论文提到的方法主要对那些“性子急”的非思考模型有效。用数据说话47胜0负的战绩我翻了一下论文里的实验数据这么简单的重复效果惊人。研究人员测试了包括Gemini、GPT、Claude和DeepSeek在内的各种主流模型。在70组“模型任务”的对比测试中采用“重复提示词”的方法在47组中取得了显著的性能提升而剩下的23组则是打平没有一组是变差的。这就意味着这个方法属于“有百利而无一害”哪怕没效果也不会拖后腿。尤其是在一些需要精准操作的任务上这种提升简直是“降维打击”。比如论文里提到的一个叫“NameIndex”的任务它是用来测试模型“细心程度”的一个高难度测试集它的规则非常对人来说也非常直接和简单就是给模型个人名然后让模型输出第个人名是什么。NameIndex 测试集示例各模型在 NameIndex 上表现如何呢Gemini 2.0 Flash-Lite在正常情况下准确率只有惨不忍睹的21.33%。但是只要把提示词重复一遍它的准确率瞬间飙升到了97.33%这就是我前面说的有些任务模型其实“会”但它因为注意力没集中“没看清”或“没关注到”要求导致它答错了。为什么对思考模式没啥用论文里也对比了这种方法在思考模式上的表现。结果发现如果模型已经开启了思考模式为了公平对比论文中用的仍然是非思考模型但添加特殊指令“Lets think step by step”通过 CoT 的方式让模型在输出答案前先思考重复提示词带来的边际效应就很低了。这也非常符合我们的直觉思考模型在生成的过程中其实已经在不断审视自己有没有满足要求。就像论文里观察到的推理模型在训练过程中往往已经学会了复述用户的请求。当它自己已经开始“反复研读”你的指令时你手动在输入端复读就显得有点多此一举了。总结最简单的“暴力美学”看完这篇论文我最大的感受就是有时候最先进的技术问题往往可以通过最原始、最“暴力”的方法解决。如果你下次用AI写代码、做数据提取或者处理一些复杂的格式要求发现它老是记不住你的指令别急着去改那些玄学的提示词模板。最简单、最有效的办法就是CtrlCCtrlV把你的要求再说一遍。毕竟科学证明了哪怕是AI重要的事说三遍也是真理