网站制作:网推宝|百度代发关键词包收录
2026/5/21 17:55:43 网站建设 项目流程
网站制作:网推宝|百度,代发关键词包收录,wordpress 主题制作 导航条,厦门外贸网站建设多少钱考虑这样一个场景#xff1a;当你想让一个人变得更聪明时#xff0c;你会怎么做#xff1f;传统的做法可能是找更多的专家来帮忙#xff0c;但美团LongCat团队的研究人员发现了一个更巧妙的方法——让这个人的词汇库变得更丰富。这项突破性研究发表于2026年1月…考虑这样一个场景当你想让一个人变得更聪明时你会怎么做传统的做法可能是找更多的专家来帮忙但美团LongCat团队的研究人员发现了一个更巧妙的方法——让这个人的词汇库变得更丰富。这项突破性研究发表于2026年1月论文编号为arXiv:2601.21204v1为大型语言模型的发展开辟了全新的道路。当前的大型语言模型就像一个拥有众多专家顾问的智囊团这些专家被称为专家混合模型MoE。每当模型需要处理问题时它会选择几个最合适的专家来协作解决。这种方法确实有效但随着模型规模的不断扩大研究人员发现了一个问题专家越来越多但效果提升却越来越小就像一个会议室里坐满了顾问但真正发挥作用的却有限。更重要的是这种传统方法面临着严峻的技术瓶颈。当专家数量增加时它们之间的沟通成本急剧上升就像一个庞大的公司里部门间的协调成本会随着部门数量增加而急速攀升。这种沟通开销不仅消耗大量的计算资源还会拖慢整个系统的运行速度。美团LongCat团队的研究人员却另辟蹊径他们将注意力转向了一个被忽视的维度——embedding scaling嵌入缩放。用通俗的话说就是让模型的词汇理解能力变得更强。这就好比与其请更多的翻译专家不如让现有的翻译掌握更丰富的词汇和短语搭配。研究团队采用了一种叫做N-gram嵌入的技术这个技术的核心思想相当巧妙。传统的模型在理解一个词时只会单独看这个词本身就像阅读时只关注单个字母。而N-gram嵌入则会同时考虑这个词和它前后的词组合就像阅读时会注意词组和短语的含义。这样模型就能更好地理解语言的上下文关系和微妙含义。为了验证这种新方法的效果研究团队进行了大规模的对比实验。他们训练了多个不同规模的模型从2.8亿到13亿个激活参数不等并在3000亿个token的语料库上进行预训练。实验结果令人兴奋在特定条件下通过扩展嵌入参数来增加模型总参数比单纯增加专家数量能获得更好的性能提升。一、发现最佳时机何时使用词汇库扩展策略最有效研究团队发现嵌入扩展的效果并不是在任何情况下都最优的它需要在合适的时机使用才能发挥最大作用。这就像烹饪时添加调料一样时机很重要。通过大量实验研究人员绘制出了不同扩展策略的性能曲线。他们发现当专家数量较少时传统的专家扩展方法效果更好因为此时增加专家能够显著提升模型的处理能力。但是随着专家数量的增加这种提升效果开始递减就像一个厨房里已经有很多厨师时再增加厨师反而可能造成混乱。关键的转折点出现在模型的稀疏度达到一定水平时。研究团队用总参数与激活参数的比值来衡量这个稀疏度。当这个比值较低时说明模型相对较密集此时增加专家的边际效益很高。但当比值超过某个阈值通常在模型稀疏度较高时继续增加专家的效果就不如扩展嵌入参数了。这个发现为模型设计提供了重要指导N-gram嵌入应该在专家数量超过其甜蜜点时引入。这意味着对于已经拥有大量专家的大型模型与其继续增加专家不如将资源投入到增强模型的词汇理解能力上。二、精心设计的集成策略如何巧妙地平衡各种因素在确定了使用嵌入扩展的最佳时机后研究团队还需要解决如何具体实施的问题。这个过程就像调配一道复杂的菜肴需要精确控制各种配料的比例和添加顺序。首先是参数预算的分配问题。研究团队发现虽然扩展嵌入参数能带来性能提升但并不是越多越好。通过仔细分析性能曲线他们发现当N-gram嵌入参数占总参数预算的50%以上时性能反而会下降。这就像做菜时调料放太多会掩盖食材本身的味道一样。因此研究团队建议将不超过50%的总参数预算分配给N-gram嵌入。其次是哈希冲突的问题。N-gram嵌入技术使用哈希函数来映射不同的词组合但有时不同的词组可能被映射到同一个位置造成冲突。研究团队发现词汇表大小的选择对减少这种冲突至关重要。他们通过分析发现当N-gram词汇表大小接近基础词汇表大小的整数倍时哈希冲突会显著增加。为了避免这个问题他们建议N-gram嵌入的词汇表大小应该明显偏离基础词汇表大小的整数倍。在超参数设置方面研究团队测试了不同的N-gram阶数N值和子表数量K值的组合。他们发现当N和K都设置为最小值时模型性能明显不佳。但当N≥3且K≥2时不同配置之间的性能差异变得相对较小这表明模型在这个参数范围内具有较好的鲁棒性。实践中他们推荐将N设置在3到5之间这样既能捕获足够的上下文信息又不会因为过度稀疏而影响学习效果。特别值得注意的是嵌入放大技术的应用。研究团队在早期实验中发现如果不对嵌入模块进行特殊处理N-gram嵌入的贡献可能会被其他模块的输出淹没。通过层级分析他们发现第一个注意力模块的输出L2范数比嵌入模块的输出大约大10倍。这意味着在残差连接中注意力输出会主导信息流而嵌入信号会被边缘化。为了解决这个问题研究团队探索了两种嵌入放大策略。第一种是引入缩放因子通常设置为√D其中D是隐藏维度来放大嵌入输出。第二种是在嵌入输出与残差分支合并前应用层归一化。这两种方法都能有效确保嵌入信号在前向传播中得到充分利用实验结果显示能够在训练损失和验证损失上都获得约0.02的一致改善。三、模型宽度与深度的影响不同架构下的最佳策略研究团队进一步探索了模型架构对嵌入扩展效果的影响这个发现对于实际应用具有重要指导意义。在模型宽度方面研究结果显示了一个令人鼓舞的趋势。随着模型宽度即激活参数规模的增加N-gram嵌入相对于传统专家扩展的优势变得更加明显。具体来说在2.8亿激活参数的模型中N-gram嵌入只有在较低的参数比值范围内才能超越专家扩展。但在7.9亿激活参数的模型中N-gram嵌入的优势范围显著扩大。而到了13亿激活参数的模型中即使在相当高的参数比值下N-gram嵌入仍能保持明显的性能优势。这种现象可以用一个生动的比喻来理解就像一个大型图书馆比小型图书馆更能从丰富的索引系统中受益一样更宽的模型能够更好地利用增强的词汇理解能力。宽模型拥有更大的表征空间能够更有效地存储和利用N-gram嵌入提供的丰富语言信息。然而模型深度的影响却呈现出相反的趋势。研究团队测试了10层、20层和40层的不同深度模型发现随着层数的增加N-gram嵌入的相对优势逐渐减小。这是因为在预归一化架构中来自嵌入层的信息需要通过残差连接传播到更深的层次但随着深度增加早期层的直接影响会逐渐衰减。这个发现对实际应用具有重要意义。当前主流的语言模型通常深度不超过40个shortcut层相当于80个传统层而它们的宽度却在不断增加。研究结果表明在这种发展趋势下N-gram嵌入的优势将会更加突出因为宽度的扩展能够放大其效果而深度的适中范围不会显著削弱其贡献。四、推理效率的突破从理论优势到实际加速将N-gram嵌入的理论优势转化为实际的推理加速是这项研究的另一个重要贡献。研究团队不仅证明了嵌入扩展在训练效果上的优势还成功地将这种优势转化为了实际的系统性能提升。N-gram嵌入机制实现了一个巧妙的参数重新分配它将参数从MoE层转移到嵌入空间。这种架构调整在保持总参数量不变的同时减少了MoE层内的激活参数数量。对于那些受内存I/O限制的大token数量解码场景这种改变带来了显著的优势。更重要的是增加嵌入层大小不会带来延迟惩罚因为嵌入查找的计算成本与输入token数量成正比而不是与嵌入参数总数成正比。这就像查字典一样无论字典有多厚查找单个词汇的时间都是相对固定的。为了充分利用参数稀疏性带来的效率提升研究团队认识到需要通过大批量处理来最大化硬件利用率。这自然地与推测解码技术形成了协同效应。多步推测解码能够有效扩大有效批量大小从而将理论上的参数稀疏性优势转化为实际的推理加速。然而将参数从专家重新分配到N-gram嵌入也带来了新的挑战。相比标准嵌入层N-gram嵌入在I/O、计算和通信方面都引入了额外开销。现代推理框架的复杂调度机制使得预先确定前向传播的确切token序列变得困难这进一步复杂化了N-gram嵌入查找的优化。为了解决这些挑战研究团队开发了N-gram缓存这是一个专门的缓存机制设计灵感来源于KV缓存的成功实践。他们实现了定制的CUDA内核来直接在设备上管理N-gram ID实现与各种推理优化技术的低开销同步。这种设计显著提升了N-gram嵌入的计算效率。在推测解码场景中由于草稿模型通常层数较少且延迟更低N-gram嵌入的开销会变得相对更加明显。为了缓解这个问题研究团队提出了两个互补的优化策略为草稿模型使用传统嵌入层以避免更昂贵的n-gram查找在草稿阶段缓存n-gram嵌入以消除后续验证步骤中的冗余计算。五、LongCat-Flash-Lite理论转化为实践的成功案例基于前述所有研究发现美团LongCat团队开发了LongCat-Flash-Lite模型这是一个从头开始训练的大型语言模型充分展现了嵌入扩展策略的实际效果。LongCat-Flash-Lite采用与LongCat-Flash相同的基础架构总共包含14个shortcut层拥有685亿个总参数。根据上下文的不同模型会动态激活29亿到45亿个参数这种动态激活机制得益于零专家的设计。在每个shortcut层中MoE模块由256个FFN专家和128个零专家组成每个token会选择12个专家进行处理。特别值得注意的是该模型包含314亿个N-gram嵌入参数占总参数量的46%这一比例恰好符合研究团队发现的最佳参数分配策略。模型的训练过程遵循了与LongCat-Flash-Chat相同的数据配方。首先在11万亿个token上进行预训练序列长度为8k然后进行15万亿token的中训练将序列长度扩展到128k最后在SFT数据上进行监督微调。为了支持扩展的上下文处理研究团队在32k序列长度的训练阶段实现了YARN技术使LongCat-Flash-Lite能够处理高达256k token的序列。为了验证嵌入扩展策略的有效性研究团队还训练了一个对照模型LongCat-Flash-Lite-Vanilla该模型具有完全相同的总参数量但通过将所有N-gram嵌入参数转换为额外的专家来实现。两个模型使用完全相同的训练策略和数据配方确保了比较的公平性。在整个训练过程中LongCat-Flash-Lite始终保持比LongCat-Flash-Lite-Vanilla更低的训练损失这直接证明了嵌入扩展策略的优势。为了全面评估模型性能研究团队在涵盖三个核心能力领域的基准测试上进行了评估通用任务包括MMLU、MMLU-Pro、C-Eval和CMMLU推理任务包括BBH、GPQA、DROP和GSM8K编程任务包括HumanEval、MultiPL-E和BigCodeBench。评估结果令人鼓舞LongCat-Flash-Lite在绝大多数基准测试上都显著超越了LongCat-Flash-Lite-Vanilla。这些发现验证了研究团队的核心假设当稀疏度达到足够水平时通过N-gram嵌入来战略性地扩展总参数同时保持嵌入参数的最佳比例始终优于仅仅增加专家数量的方法。六、聊天模型的卓越表现在实际应用中的突出能力LongCat-Flash-Lite的聊天版本在多个实际应用场景中展现出了卓越的性能特别是在智能体工具使用、智能体编程、通用领域知识和数学推理等方面。在智能体工具使用任务中LongCat-Flash-Lite表现出色在所有比较模型中建立了明显的领先优势。在τ2-Bench基准测试中它在所有三个子场景中都获得了最高分电信场景得分72.8零售场景73.1航空场景58.0。特别是在电信场景中它的表现显著超越了Gemini 2.5 Flash-Lite和Kimi-Linear-48B-A3B。这突出了模型在处理复杂工具依赖关系和特定领域任务执行方面的卓越能力。在VitaBench测试中它获得了7.00的高分超过了Qwen3-Next-80B-A3B-Instruct的5.80分和Gemini 2.5 Flash-Lite的4.50分这进一步证明了模型在通过工具集成处理复杂现实世界任务工作流方面的优越能力。在编程相关任务中LongCat-Flash-Lite展现出了卓越的实际问题解决能力。在SWE-Bench测试中它达到了54.4的准确率大幅超越了所有基线模型——比Qwen3-Next-80B-A3B-Instruct的37.6、Gemini 2.5 Flash-Lite的41.3和Kimi-Linear-48B-A3B的32.8都有显著提升。这表明模型在解决现实软件工程问题包括错误修复和功能实现方面的熟练程度。在评估终端命令执行能力的TerminalBench中LongCat-Flash-Lite获得了33.75的领先分数远超Qwen3-Next-80B-A3B-Instruct的15.19、Gemini 2.5 Flash-Lite的20.0和Kimi-Linear-48B-A3B的20.0体现了其在理解和执行对开发者导向智能应用至关重要的终端相关指令方面的强大能力。在跨语言编程能力方面LongCat-Flash-Lite在SWE-Bench多语言测试中取得38.10的成绩超过了Qwen3-Next-80B-A3B-Instruct的31.3和Kimi-Linear-48B-A3B的37.2展现了在多语言开发环境中的可靠适应性。在PRDBench测试中它获得39.63的高分显著超过Qwen3-Next-80B-A3B-Instruct的15.36研究团队观察到该模型能够自主编写单元测试来验证其开发工作产出更高质量的代码仓库。在通用领域知识任务方面LongCat-Flash-Lite提供了均衡且具有竞争力的性能。在MMLU测试中它获得85.52分与Gemini 2.5 Flash-Lite的84.68和Kimi-Linear-48B-A3B的79.91相当仅略低于Qwen3-Next-80B-A3B-Instruct的89.28。在中文特定基准测试中它在CEval和CMMLU上分别获得86.55和82.48分相比Kimi-Linear-48B-A3B的78.48和76.26以及Gemini 2.5 Flash-Lite的75.16和72.06都有显著优势。在GPQA-Diamond测试中它获得66.78分在基准性能范围内保持了竞争力。对于MMLU-Pro它达到78.29分在处理更具挑战性的多任务语言理解问题上展现了扎实的性能。在数学推理能力方面LongCat-Flash-Lite在基础和高级任务中都展现出了强劲的数学推理能力。在MATH500上它达到96.80的准确率接近Qwen3-Next-80B-A3B-Instruct的98.00并超越了Gemini 2.5 Flash-Lite的95.20。在高级数学竞赛基准测试中它取得了令人印象深刻的成绩AIME24得分72.19AIME25得分63.23。这些分数超越了Kimi-Linear-48B-A3B的70.52和59.58以及Gemini 2.5 Flash-Lite的63.33和50.1突显了模型处理复杂多步数学推导的能力。七、系统级优化让理论优势变为实际速度提升为了将极度稀疏激活带来的理论优势转化为实际的推理加速研究团队实施了一系列系统级优化。这些优化就像为一台精密机器配置了最合适的运行环境让其能够发挥出最大性能。由于模型具有极度的激活稀疏性充分利用GPU内存带宽需要较大的有效批量大小。研究团队采用Eagle3技术部署模型配合3步推测解码策略。类似于之前的优化实践他们采用了宽Expert Parallel和Single Batch Overlap来加速推理速度。虽然这些优化成功扩大了有效批量大小但模型的轻量化特性使得瓶颈转移到了内核启动开销上这给维持高GPU占用率带来了挑战。为了解决这个问题研究团队实现了多项系统级优化。在内核优化方面他们应用了广泛的内核融合来减少执行开销和内存流量。具体来说所有TP组内的通信操作都与后续的细粒度内核融合包括AllReduce 残差相加 RMSNorm、AllGather Q-Norm KV-Norm以及ReduceScatter RMSNorm 隐藏状态合并。对于量化模型他们将每个激活量化步骤集成到现有操作中包括前述的通信融合内核和SwiGLU组件。此外路由器逻辑处理Softmax TopK 路由器缩放和零专家选择被整合到单一统一内核中。在注意力合并优化方面他们在解码阶段采用splitkv-and-combine策略。当KV分割数量较高时合并操作可能产生显著延迟有时与计算本身相当。通过优化合并内核他们有效地将其延迟减少了50%。研究团队还利用了程序化依赖启动PDL技术允许依赖内核通过触发早期启动来重叠执行。这种机制不仅消除了连续内核之间的间隙还提高了SM利用率。基于这些综合优化LongCat-Flash-Lite在8xH800-80G配置下实现了卓越的推理性能。在输入序列长度为4K、输出序列长度为1K的设置下模型展现出了优异的吞吐性能表现。这些实际测试结果证明了从理论优势到系统性能提升的成功转化。说到底美团LongCat团队的这项研究揭示了一个重要的新方向在大型语言模型的发展过程中我们不必总是依赖增加更多的专家来提升性能。有时候让模型更好地理解词汇之间的关系和组合反而能取得更好的效果。这就像学习一门外语时与其背诵更多单词不如深入理解词汇的搭配和用法一样。这项研究的意义远不止于技术层面的突破。对于普通用户而言这意味着未来的AI助手可能会变得更加聪明和高效同时运行成本可能会更低。对于企业来说这种新的扩展策略提供了一条更经济、更可持续的AI发展路径。而对于整个AI行业这项研究开辟了一个全新的研究方向可能会影响未来几年大型语言模型的发展轨迹。LongCat-Flash-Lite模型的成功实践证明了这种新方法的可行性。它不仅在各种任务上表现出色特别是在编程和工具使用方面展现出了突出能力更重要的是验证了嵌入扩展策略在实际应用中的价值。这为后续研究者提供了宝贵的参考也为AI技术的进一步发展指明了新的方向。**QA**Q1N-gram嵌入技术是什么AN-gram嵌入是一种让AI模型更好理解词汇组合的技术。传统模型理解一个词时只看这个词本身而N-gram嵌入会同时考虑这个词和它前后的词组合就像阅读时注意词组和短语含义一样让模型能更好地理解语言的上下文关系。Q2为什么嵌入扩展比增加专家更有效A当专家数量增加到一定程度后它们之间的沟通成本会急剧上升效果提升却越来越小。而嵌入扩展是通过增强模型的词汇理解能力来提升性能不会增加专家间的协调开销在高稀疏度模型中能获得更好的性能提升。Q3LongCat-Flash-Lite模型有什么特别之处ALongCat-Flash-Lite是美团团队基于嵌入扩展策略训练的68.5B参数模型其中31.4B参数用于N-gram嵌入。该模型在编程和智能体工具使用任务上表现特别出色同时运行效率更高证明了嵌入扩展策略的实际价值。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询