2026/4/6 7:52:05
网站建设
项目流程
asp网站如何实现伪静态,做网站可以先做再给钱吗,wordpress 关于页面,什么网站从做系统点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入#xff01; 作者简介 王发利#xff0c;宾州州立大学博士生。 内容简介 测试时缩放#xff08;Test-time Scaling, TTS#xff09;通过在推理阶段分配额外的计算资源#xff0c;提升大型语言模型#xff08;LLMs…点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入作者简介王发利宾州州立大学博士生。内容简介测试时缩放Test-time Scaling, TTS通过在推理阶段分配额外的计算资源提升大型语言模型LLMs的性能。然而现有研究主要聚焦于单阶段任务中的 TTS 技术而现实世界中的诸多问题均为多阶段复杂任务这类任务由一系列异构子任务构成且每个子任务需具备特定能力的 LLM 来完成。因此作者研究了一个新的问题 —— 多阶段复杂任务中的测试时计算最优缩放目标是为每个子任务选择合适的模型并分配预算以最大化整体任务性能。 多阶段任务中的 TTS 面临两大核心挑战模型与预算分配的组合搜索空间庞大且推理成本高昂导致暴力搜索完全不可行各子任务间的最优模型与预算分配存在相互依赖性进一步增加了计算最优搜索的复杂度。为填补这一研究空白作者在 6 个数据集的 4 项任务上开展了大量预备实验提炼出三大实证洞察这些洞察揭示了 LLM 在多阶段复杂任务中的行为特征。基于这些洞察作者提出了 AgentTTS 框架 —— 一种基于大型语言模型智能体LLM-agent的解决方案该框架通过与执行环境进行迭代式的反馈驱动交互自主搜索计算最优分配方案。实验结果表明AgentTTS 在搜索效率上显著优于传统方法及其他基于 LLM 的基线方法同时在不同训练集规模下展现出更强的鲁棒性且可解释性得到提升。论文地址https://arxiv.org/pdf/2508.00890代码链接https://github.com/FairyFali/AgentTTS/研究背景测试时缩放Test-time Scaling, TTS测试时缩放与训练时缩放有所不同其核心是在推理阶段为大型语言模型LLM分配额外计算资源从而提升模型性能。具体而言对于相同的输入通过让LLM重复生成多次结果再采用投票等融合方式得到综合答案。实验表明随着重复采样数量的增加模型性能呈现逐步提升的趋势这一规律与缩放定律Scaling Law的特征相符。计算最优测试时缩放Compute-optimal Test-time Scaling计算最优测试时缩放的目标是在给定测试时缩放策略与固定计算预算的前提下寻找最优超参数以实现模型性能最大化。其中超参数可包括模型规模选择、采样数量等计算预算的表现形式多样既可以是浮点运算次数FLOPs、API调用成本也可以是采样样本数量。现有研究的局限性当前测试时缩放相关研究主要聚焦于单阶段任务例如数学推理、代码生成等。然而现实世界中的诸多应用场景均属于多阶段任务这类任务由多个相互关联的子任务构成典型案例包括检索-生成式问答、多步骤软件开发等。多阶段任务具有两个关键特性而现有研究未能充分考虑异构性不同子任务的难度与所需能力存在差异。以检索-生成式问答为例检索子任务需要模型具备长上下文理解能力更适合采用大型模型而问答生成子任务对模型规模要求较低小型模型配合适当采样策略即可实现较好效果。若为所有子任务分配相同计算预算难以达到最优整体性能。相互依赖性前期子任务的执行效果会直接影响后续子任务的性能。前期子任务表现优异时后续子任务的执行难度降低反之若前期子任务表现不佳后续子任务的优化空间会受到限制。这种依赖性使得固定的预算分配模式无法适配动态变化的任务需求。问题定义给定多阶段任务T [T1,T2,...,Tn]、总计算预算B以及模型集合M [Mi] 研究目标包括为每个子任务Ti选择合适的模型Mi为每个子任务分配预算Bi满足总预算约束ΣiBi≤B最大化多阶段任务的整体执行性能。本质上该问题属于预算分配优化问题核心是在固定总预算下实现模型—预算的最优匹配。本研究采用“重复采样融合Repeated Sampling with Fusion”策略具体流程为LLM通过重复采样生成多个候选解决方案再通过融合提示词将这些候选方案聚合为最终输出。该策略具有两大优势与“最优选择Best-of-N”方法相比无需额外的奖励模型或验证器适配更多无现成验证工具的任务场景与序列式缩放方法相比采用并行化执行逻辑具备更高的扩展性。预算计算方式由于不同子任务的输入规模、所选模型规模存在差异其计算开销也各不相同。为实现统一的预算管理本研究定义了标准化的预算单位以最小模型在最简单子任务上的计算开销为1个单位预算通过成本函数fcost计算不同模型-子任务组合的预算消耗倍数。例如某模型—子任务组合的计算开销为单位预算的10倍则其预算消耗记为10。针对不同预算指标如FLOPs、API调用成本可设定对应的成本函数fcost。核心挑战组合爆炸问题预算分配的搜索空间极大。例如3个子任务搭配2种可选模型时再结合不同的采样数量组合可能产生超过10种配置方案随着子任务数量、模型选项及采样数量的增加搜索空间呈指数级增长。子任务依赖性如前文所述子任务间的相互关联使得预算分配需动态适配前期子任务的模型-预算选择会影响后续子任务的优化方向进一步增加了搜索复杂度。关键发现通过预备实验本研究得出以下三大关键发现为后续方法设计提供了重要依据子任务特定模型偏好不同子任务对模型规模存在差异化偏好。检索类子任务更依赖大型模型的长上下文理解能力对预算变化的敏感性较低而生成类子任务在预算有限时小型模型配合合理采样策略的表现可能优于大型模型。子任务存在最优预算点在固定模型下子任务性能随预算增加先提升但超过某一最优预算点后性能会趋于饱和甚至下降。这一现象的主要原因是LLM的长上下文处理能力有限过多候选方案的融合会超出模型的上下文理解范围导致性能退化。子任务间的相互影响前期子任务的执行效果会影响后续子任务的模型-预算适配。以检索-生成式问答为例当检索子任务提供高质量参考信息时小型模型与大型模型在问答生成子任务上的性能差距显著缩小而当检索结果质量下降时两者的性能差距会扩大。基于上述关键发现本研究提出AgentTTS框架这是一种基于LLM智能体的预算分配优化方法核心流程如下输入多阶段任务描述、总计算预算、可选LLM集合初始化智能体生成初始的模型-预算分配方案 trials 并存储至档案库Archive评估通过真实任务环境执行分配方案返回性能反馈结果准则生成智能体分析性能反馈结合三大关键发现生成优化准则迭代优化智能体依据优化准则生成新的分配方案重复执行评估-准则生成-迭代步骤终止条件当满足预设停止条件时输出最优模型-预算配置。实验结果表明AgentTTS框架在多阶段任务的预算分配优化中表现优异具体优势体现在搜索效率AgentTTS能够以最少的迭代次数trials达到最优性能收敛速度显著快于其他基于LLM的方法如AgentHPO、MLCopilot最终性能在WikiMultiHop QA、HotpotQA、CWQ等数据集上AgentTTS的整体性能优于传统方法如贝叶斯优化、随机搜索及其他LLM基方法鲁棒性贝叶斯优化等传统方法易陷入局部最优解随机搜索虽具有一定鲁棒性但效率极低而AgentTTS既保证了搜索的鲁棒性又兼顾了优化效率。本研究针对多阶段任务的测试时计算最优缩放问题展开深入探讨通过实验提炼出三大关键发现子任务对模型规模存在差异化偏好、缩放效果在最优预算点后趋于饱和、前期子任务预算分配影响后续任务性能。基于这些发现提出AgentTTS智能体框架通过与真实任务环境的迭代交互高效搜索最优模型-预算配置。实验验证表明AgentTTS在搜索效率、最终性能及鲁棒性方面均超越传统方法与现有LLM基方法为多阶段任务的计算资源优化分配提供了有效解决方案。本期文章由支昕整理往期精彩文章推荐关于AI TIMEAI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学者、行业专家和爱好者希望以辩论的形式探讨人工智能和人类未来之间的矛盾探索人工智能领域的未来。迄今为止AI TIME已经邀请了2000多位海内外讲者举办了逾800场活动超1000万人次观看。我知道你在看提出观点表达想法欢迎留言点击阅读原文查看作者直播回放