曲阜市住房和城乡建设局网站买购网
2026/5/21 10:32:35 网站建设 项目流程
曲阜市住房和城乡建设局网站,买购网,八桂职教,包装设计用什么软件Attention Is All You Need 喊了这么多年#xff0c;是不是把我们的思维都禁锢住了#xff1f;自 2017 年以来#xff0c;Self-Attention 几乎成为了现代序列建模的绝对基石。我们早已习惯了通过计算 将序列隐状态提升到一个庞大的 配对交互空间。这种范式虽然暴力且有效是不是把我们的思维都禁锢住了自 2017 年以来Self-Attention 几乎成为了现代序列建模的绝对基石。我们早已习惯了通过计算将序列隐状态提升到一个庞大的配对交互空间。这种范式虽然暴力且有效但代价高昂。它不仅带来了二次方增长的计算开销更创造了一个高维、稠密且难以解析的张量云Tensor Cloud。近日一篇名为《Attention Is Not What You Need》的论文直接挑战了这一假设。作者并没有走 Mamba 或 RWKV 的老路即从 RNN/SSM 时序角度切入而是另辟蹊径提出了一种基于微分几何的全新视角。如果我们将推理视为语义流形上的几何演化那么我们真正需要的不是注意力权重而是一个能够捕捉局部几何结构如子空间变化的演化机制。这就是 Causal Grassmann Transformer。它不计算全局 Attention而是将 Token 对映射为格拉斯曼流形上的点即子空间利用普吕克坐标Plücker coordinates进行特征编码实现了完全去注意力化的序列混合。论文标题Attention Is Not What You Need: Grassmann Flows as an Attention-Free Alternative for Sequence Modeling论文链接https://arxiv.org/pdf/2512.19428研究背景要看懂 Grassmann Flow 的创新得先明白 Transformer 的核心算子在数学上到底意味着什么。在标准 Transformer 中多头注意力机制通过线性投影计算随后构建注意力矩阵作者一针见血地将这一过程定义为张量提升 (Tensor Lifting)。这就好比为了研究个点之间的关系模型暴力地跃迁到了一个维度的交互张量空间。这种提升虽然让模型拥有了极高的自由度但也带来了两个致命伤解析的黑盒化跨越多个层和头之后模型实际上是在操纵一个极其复杂的张量云。由于自由度过高我们根本找不到一组简洁的数学不变量来描述模型的全局行为。二次复杂度的枷锁的计算代价在长序列下是不可持续的。作者提出了一个极具哲学意味的假设大模型的不可解释性并非仅仅源于参数量而是源于我们将核心算子建立在了不可追踪的高维张量提升之上。如果我们能将混合机制限制在一个结构明确的有限维流形上或许能兼顾表达力与可解释性。格拉斯曼流与普吕克嵌入Causal Grassmann Transformer 的核心思想非常优雅用子空间演化替代加权求和。模型不再计算全局的 Token 相似度而是捕捉局部窗口内 Token 构成的线性子空间的几何特征。该架构主要包含以下四个步骤1. 线性降维首先为了控制计算量并提取核心语义方向模型将高维隐状态投影到低维空间实验中这一步不仅减少了后续几何计算的开销也隐含了对语义流形局部切空间的近似。2. 局部配对与格拉斯曼流形这是本文最硬核的部分。模型定义了一组多尺度窗口如。注意为了保证自回归性质这里严格采用因果配对 (Causal Pairing)。对于位置只与未来的或者说历史的取决于索引视角配对绝不偷看未来。模型考察由张成的 2 维线性子空间。在数学上所有维空间中的 2 维子空间构成了格拉斯曼流形。这意味着模型将“Token 对”视为流形上的一个点而非两个独立的向量。3. 普吕克坐标嵌入如何在神经网络中处理流形上的点作者利用了代数几何中的普吕克嵌入 (Plücker Embedding)。对于一对向量其普吕克坐标由所有可能的子行列式构成这一向量唯一地确定了该子空间直至标量乘法。这里的几何直觉非常美妙普吕克坐标本质上编码了两个向量构成的平行四边形在各个基底平面上的投影面积。它不再关注两个向量离得有多远距离而是关注它们张开的姿态Relative Pose。这是一种比点积更本质的几何特征。4. 投影与门控融合最后提取出的几何特征被投影回模型维度并通过门控机制注入到主干流中5. 复杂度分析整个过程的计算复杂度为假设为常数与序列长度呈线性关系。相比之下标准 Attention 的复杂度为。虽然普吕克坐标的维度随增长较快但在时特征维度仅为 496完全在可接受范围内。实验结果作者在 Wikitext-2语言建模和 SNLI自然语言推理数据集上评估了模型表现。实验设计非常诚实直接对比了参数量相近的 Transformer 基线。1. 语言建模 (Wikitext-2)在语言建模这种强依赖全局上下文的任务上GrassmannLM 表现出了竞争力但未能超越 Transformer。〓 表1-2. 表格对比了 TransformerLM 与 GrassmannLM 在不同层数下的 PPL。结果显示GrassmannLM 的困惑度PPL比 Transformer 高出约 10-15%。在工业界15% 的 PPL 差距通常意味着不可用。但这毕竟是一个完全抛弃了 Attention 的初代原型随着层数加深从6层到12层差距略有缩小证明了堆叠几何流确实能近似复杂的全局交互。2. 自然语言推理 (SNLI)但在需要逻辑推理的 SNLI 任务上反转来了。当固定 DistilBERT 作为骨干网仅替换分类头Head时〓 表3. Grassmann-Plücker head 在推理任务上微弱反超。Grassmann-Plücker 头在准确率上微弱击败了 Transformer 头。这说明在处理蕴蕴含、矛盾等逻辑关系时显式的子空间几何特征可能比单纯的注意力权重包含了更丰富的语义结构信息。3. 实际运行速度尽管理论复杂度为线性但作者坦承但作者坦承由于当前实现依赖于 PyTorch 的基础操作尤其是普吕克坐标计算涉及大量切片和重组缺乏像 FlashAttention 那样极致优化的 CUDA 内核其实际训练速度慢于优化的 Transformer。这再次印证了在深度学习领域系统工程优化与算法理论创新同等重要。结语这篇论文并非宣告了 Transformer 的终结而是一次极具启发性的去中心化尝试。它证明了只要赋予模型足够丰富的几何演化规则即使完全抛弃注意力权重也能实现具备竞争力的序列建模能力。更深层的启示在于归纳偏置 (Inductive Bias)。Transformer 是一种归纳偏置极弱的架构全连接图它依赖海量数据和算力来硬啃出智能。而 Grassmann Flow 则反其道而行之它引入了显式的几何归纳偏置。我们在狂卷参数量和上下文长度的同时是否应该停下来思考一下智能的本质是暴力统计还是流形上的优雅演化这或许是一个信号——别忘了数学本身蕴含的无限可能。更多阅读#投 稿 通 道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询