2026世界杯最新押注登录平台当线性耀主见学会「写入前想考」: 并行化的多步悲痛写入

世界杯积分榜Position

你的位置：2026世界杯中国最新押注app > 世界杯积分榜 > 2026世界杯最新押注登录平台当线性耀主见学会「写入前想考」: 并行化的多步悲痛写入

发布日期：2026-06-15 02:30 点击次数：101

2026世界杯最新押注登录平台当线性耀主见学会「写入前想考」: 并行化的多步悲痛写入

Transformer依托刚劲的建模能力和Scaling遵守在保举领域被庸碌应用于超长序列建模和生成式保举等标的，但

复杂度，能在不作念序列截断的情况下处理肆意长度的活动序列，

的算计支出不得不作念出各式息争：举例将self-attention改为cross-attention或local-attention、序列截断、序列压缩等。这些弃取虽缓解了算计压力，但不可幸免地赔本了序列中的长程活动模式。受LLM领域线性耀主见（LinearAttention）及混杂架构权衡的启发，线性耀主见自然具备

可能是保举领域比Transformer更匹配的底层架构。然而，现存线性耀主见模子每步只可作念rank-1的浅层写入，建模质地与Transformer仍有差距；而具有多步深度写入能力的TTT（Test-TimeTraining）虽质地突破，却因串行依赖导致教诲费解量比线性耀主见慢，难以工业部署。

为此，腾讯告白时候团队与北京大学协调提议PRISM（ParallelResidualIterativeSequenceModel）——在保握线性耀主见

复杂度的同期，杀青TTT级别多步深度写入的序列模子。PRISM通过分析TTT-MLP的梯度结构，揭示其高抒发力源于步长×残差×标的的多步迭代模式，并发现这一高抒发力与串行瓶颈是磨灭根因（权重迭代更新）的两面。基于这一瞻念察，PRISM在兼容parallelscan的线性情景上显式重建了该迭代模式，通过局部anchor代理甩掉token间串行，通过闭合式瞻望算甩掉step间串行，最终呈现为一个协调的残差拟合过程：第一步当然退化为线性耀主见的程序写入，后续步以不到10%的参数增量叠加低秩修正。在四个序列保举基准上，PRISM匹配TTT质地且费解量普及174倍；与小数Transformer层构成混杂架构后超越纯Transformerbaseline。

该责任已被机器学习领域顶级会议ICML2026请托，论文题目“PRISM:ParallelResidualIterativeSequenceModel”。

一、配景：从无穷背包到有限背包

（一）Transformer的无穷背包与线性耀主见的有限背包

Transformer的Attention机制内容上是一个"无穷背包"：它把每一个token的KV都圆善保存在KVCache中，推理时一一比对。这带来了极强的抒发力，但存储和算计量随序列长度N呈

增长，当落魄文达到百万token量级时，即便顶尖GPU也难以承受。

为此，一系列线性复杂度序列模子（如LinearAttention、RWKV、Mamba、GatedDeltaNet等）提议了"有限背包"决策：用一个固定大小的情景矩阵

压缩存储整个历史信息。岂论序列多长，S的大小不变，复杂度降为

背包容量有限，每来一个新token，模子必须决定往里写什么、同期擦掉什么。这个"写与擦"的礼貌，决定了有限背包模子的天花板。但在深刻究诘"写与擦"之前，咱们先要回话一个更基本的问题。

（二）有限背包内容上是RNN，为何还能并行？

照实如斯，有限背包模子的数学款式内容上等于RNN：

每一步的情景，无法班师并行化。那为什么各人说LinearAttention/Mamba是"可并行的"？

一步步算到

，这看起来自然串行，必须从

依赖上一步的

关节在于一个数学技能：ParallelScan（并行前缀扫描）。

当递推联系（recurrence）的款式得志线性结构

（其中

都只依赖现时输入，不依赖

）时，这个递推不错被改写为得志聚会律的二元运算。一朝得志聚会律，就不错用类似"求前缀和"的方式并行算计，其旨趣与经典的parallelprefixsum算法换取，区别仅在于基础运算从标量加法扩充为"矩阵乘法+加法"。

具体来说，N步的串行递推不错在

），但在GPU上墙钟期间大幅镌汰。

的深度内完成，代价是多作念了一些冗余算计（总算计量变成

但这里有一个很强的前提：和必须是历史情景无关的，它们只但是现时输入的函数，不成依赖或需要读取

才能算出来，聚会律就不开采了，就无法应用parallelscan杀青并走时算。

。一朝

GDN得志这个条目：

都只依赖现时输入。是以GDN不错用parallelscan并行教诲。

和

（三）为什么并行这样遑急？GPU的"搬运工"瓶颈

一个常见的诬蔑是将"串行慢"归因于更多的浮点运算。试验上，瓶颈在别处。当代GPU的算计中枢（TensorCore/CUDACore）算力极为充沛，A100GPU每秒能作念312万亿次浮点运算（312TFLOPS）。实在的瓶颈不是"算"，而是"搬"。

GPU的存储分为两层：

HBM（HighBandwidthMemory，高带宽显存）：容量大（40-80GB），但读写速率"慢"（约2TB/s）。模子参数、state矩阵S、中间activation都存在这里。

SRAM（片上缓存）：容量小（每个SM约192KB），但读写速率极快（约19TB/s，快10倍）。GPU的算计中枢只可班师打听SRAM。

打个譬如：SRAM像责任台（小但举手投足），HBM像仓库（大但每次取货要走一回）。

是以每一次算计都要资历一个"搬运"历程：把数据从HBM搬进SRAM，在SRAM里算完，再把收尾搬回HBM。这个搬运的期间通常远超算计自己，这等于所谓的memory-bound（存储带宽瓶颈）。

Parallelscan+fusedkernel的实在威力在于：把通盘序列的N步递推打包成一个大算子（fusedkernel），S矩阵只需要从HBM搬进SRAM一次，在SRAM里贯串算完整个步，再搬且归。数据搬运次数从

降到

要是不成parallelscan（比如TTT），每个token都要独随即跑一遍迭代算计，每个token都要独占一次HBM与SRAM之间的搬运，搬运次数是

退化到

，硬件诳骗率断崖式下降。实测TTT-MLP比GDN慢174倍，根源不在于浮点运算量的等比加多，而在于HBM↔SRAM数据搬运次数从

能否适配parallelscan不仅是算法揣测打算上的好意思学礼聘，更班师决定了10-100倍的试验运行速率各异。

（四）Rank-1写入的瓶颈

以GDN（GatedDeltaNet）为代表的线性耀主见模子，每个token对S作念的是一次rank-1更新：

"擦"的部分杀青了礼聘性淡忘：是全局scalargate限度合座衰减，

在方朝上作念rank-1的礼聘性淡忘，为新写入腾出空间。实在的瓶颈在“写”：每次只可往S里写入一个rank-1的外积

的悲痛矩阵上只更变了"一滑”。

（即两个向量的乘积，收尾矩阵的整个行都是磨灭个标的的缩放），极端于在通盘

要是一个token佩戴的语义是多维度的（它同期是某个句法结构的因素、某个语义脚色的载体、某个topic的关节词），rank-1的一滑写入无法同期在这些维度上作念细密诊治。信息在压缩写入时不可幸免地丢失。

中枢矛盾：背包有限，每次却只允许写一滑。这是现时整个线性复杂度模子的共有瓶颈。

（五）TTT的突破与代价

既然rank-1写入太浅，一个当然的目的是：让模子学会更深的写入礼貌。

TTT（Test-TimeTraining）系列责任采用了一种根人道不同的战略：把悲痛情景从一个linear矩阵S升级为一个MLP的权重矩阵。每来一个token，对MLP的权重作念多步梯度下降（multi-stepGD），渐渐讲究写入内容。这带来了显耀的质地普及。

但TTT的多步GD碎裂了历史情景无关前提。每步的梯度

，带来174倍的速率差距。

归赵

不再是输入的纯函数，parallelscan的数学前提从根柢上被碎裂。后果很班师：每个token的算计都要独随即、串行地跑一遍梯度下降轮回，fusedkernel打包不了，HBM与SRAM搬运次数从

又依赖前一步，这让

，而

依赖现时权重

PRISM要惩办的中枢问题：揣测打算一个多步写入机制，同期得志两个条目——(1)像TTT一样有步长×残差×标的的多步迭代深度；(2)像GDN一样

都是历史情景无关的，能被打包成parallelscan的fusedkernel。

二、分析：TTT-MLP为什么收尾好，但速率慢？

在揣测打算PRISM之前，2026世界杯中国最新押注app咱们开头深刻分析TTT-MLP的梯度结构，弄明晰它的高抒发力到底从何而来。

（一）步长×残差×标的模式的暴露

TTT-MLP的情景是两层汇聚

。伸开其W₂的梯度更新：

每步更新具有一个结构模式：

步长：

，每个hiddenunit的activation，限度写入强度

残差：，现时还没写好的部分，跟着更新渐渐递减

标的：

每步更新是以标的每步不同

，写入的标的，因为

TTT-MLP的高抒发力正来自这个步长×残差×标的模式：多步残差递减提供了优化深度（depth），W₁多行提供多个标的则提供了抒发宽度（width/rank-L）（即同期修改S矩阵的L个孤苦维度）。

（二）高抒发力与串行是磨灭根因的两面

关节瞻念察：驱动步长×残差×标的模式的是权重每步更新。正是因为

每步都在变，标的才会变（width），残差才会减（depth）。但磨灭个“权重每步更新”也恰正是串行的根源。

具体来说，它形成了两个维度的串行瓶颈：

1.Token间串行（Inter-tokenSeriality）

瓶颈A（淡忘与写入的耦合）：TTT的梯度更新让S的淡忘和写入纠缠在沿路，recurrence无法写成第一节所述的线性款式

，parallelscan的前提不再得志。

瓶颈B（残差依赖历史情景）：每个token的残差

，整个token的算计过程只可列队实践。

需要读取前一个token的精准情景

2.Step间串行（Intra-stepSeriality）

瓶颈C（标的与残差的同步）：在多步GD中，第l+1步的写入标的必须恭候第l步的权重更新收场才能详情，残差也必须等上一步算完才能得到，强制引入一个无法伸开的轮回。

瓶颈C是最中枢的矛盾：它同期是rank-L抒发力的载体和步间串行的根源。因此甩掉瓶颈C不成绵薄取消迭代，必须在取消同步耦合的同期保留多标的和残差递减带来的抒发力。

三、智力：PRISM的揣测打算与杀青

基于上述分析，PRISM的战略尽头明确：在兼容parallelscan的线性情景S上显式重建TTT-MLP的步长×残差×标的模式，然后分维度甩掉串行。

（一）中枢迭代款式：步长×残差×标的

PRISM显式构造了TTT-MLP的多步迭代模式：

每步是

（步长×残差×标的），L步积累rank-L写入。

与TTT-MLP的对应联系：

为什么PRISM必须用学得的

的外积，对loss求梯度时，行标的老是与k共线，梯度的行标的锁死在k方朝上，L步GD积累遥远rank-1。TTT-MLP之是以能rank-L，是因为

而不成班师作念多步GD？因为在线性情景S上，线性情景的写入是

MLPhiddenlayer的非线性提供了隐式的多标的。PRISM在线性情景上莫得hiddenlayer，必须显式引入L个可学习标的来补回这一能力。

（二）甩掉Token间串行：A/B永诀+局部Anchor代理

淡忘/写入永诀（惩办瓶颈A）：PRISM的淡忘项保握跟GDN王人备一致

内。使迭代式保握

，整个非线性操作狂放在写入项

款式，parallelscan骨架不动，Mamba的scankernel班师复用。

局部Anchor代理（惩办瓶颈B）：用局部历史情景

（局部anchor基于短卷积（ShortConv）杀青）替代全局情景S。Anchor只依赖局部输入窗口，不读S，整个token的迭代算计不错同期运行。

至此，序列级别的parallelscan已王人备规复。anchor让不同token的迭代不错同期启动，但每个token里面的L步之间仍需限定实践（瓶颈C）。

（三）甩掉Step间串行：解耦链+闭合式瞻望算

惩办瓶颈C。因为有了anchor，两条链当然解耦：

Directionchain解耦：

，因为anchor是事前给定的局部统计量（不依赖迭代过程），整个L个标的不错同期算出。

Residualchain线性化：将迭代内的GELU非线性领受进事前算计好的缩放所有（preconditioner）

，梯度下降的迭代过程退化为纯element-wise线性递推：

由此多步迭代推算得到闭合式：

L步的串行轮回被消解为单步闭合式算计。通盘多步梯度下降算计过程不错编译成一个fusedkernel，数据只需要从HBM搬进SRAM一次。

（四）架构全貌与GDN退化

多步梯度下降算计过程的原始产出是L个rank-1迭代算计：

不雅察迭代第一步使

，就得到了GDN+非线性修正项的款式：

，此前卫无前序输出，残差等于开动输入自己，且无需经过非线性变换，因此第一步的写入当然退化为

PRISM不错视为一种多步残差拟总算计过程，L=1时精准退化为GDN。后续步仅仅在第一步的基础上追加非线性修正，且不错使用lowrank汇聚增量，罕见参数目不杰出基础模子的10%。

四、实验收尾

（一）序列保举

在公开序列保举基准Amazon上，PRISM进展与Transformerbaseline收尾接近，杰出大大批线性耀主见类智力。算计遵守方面，PRISM与GDN同级，比TTT-MLP快174倍。

（二）说话建模（基于SlimPajama2B教诲，130M参数）

在更大规模的说话建模实验上（SlimPajama2Btokens，Mistraltokenizer），PRISM一样得回了全面当先：

开云体育app2026世界杯中国官网下载

PRISM在WikiTextPPL、LAMBADAPPL和9项Zero-Shot卑鄙任务平均准确率上均为最优，当先GDN3.2个百分点。

（三）组件消融

教诲PPL各异极小，但卑鄙泛化各异弘远。单步solver(L=1)的教诲PPL果然等于圆善版，但AvgACC下降2.9个百分点——rank-L的实在价值不在next-tokenprediction上，而在需要精准长程检索的卑鄙任务上。

更值得精通的是shared-Kvsbase-K的对比：solver两步共用孤苦的果然不掉分（−0.3），但复用GDNbase的key则大幅退化（−1.5）。这讲明solver需要我方的标的空间，在GDN依然写入的key方朝上类似操作无法补充新信息。

五、延长想考

（一）有限背包终究有限，混杂架构也许是势必

即使有了rank-L的深度写入，有限背包终究是有限的。S的容量是

，当序列长到几十万token，关节信息照旧可能被隐蔽。

从PRISM的视角看，这个直观有一个很好的时候讲明注解。PRISM用短卷积（ShortConv）算计的局部anchor替代全局情景S来近似残差。由于短卷积窗口往往只隐蔽最近3-4个token，关于需要高出数千步的长程依赖，近似质地势必下降。

要是在PRISM层之间穿插小数Transformer层，后者就充任了一种全局的、非线性的历史情景精准算计器，能赔偿anchor在长程上的近似舛讹。从这个角度看，Transformer自己等于ShortConvanchor的"全局升级版"：ShortConv用固定窗口的局部卷积近似历史情景，Transformer用全局attention精准算历史情景。

这也许讲明注解了为什么近期果然整个进展最佳的长序列模子（Jamba、Zamba、Griffin等）都采纳了混杂架构：不是因为LinearAttention或SSM存在能力弱点而需要Transformer手脚补充，而是因为有限背包和无穷背包在架构层面是互补的。前者提供

的高速处理和压缩存储，后者提供精准的长程检索。混杂架构让模子有机和会过Transformer层找回有限背包中丢失的信息。

（二）线性耀主见的LoRA？

PRISM的最终款式有一个瞻仰瞻仰的结构特征：

这个"基础迭代过程+lowrank旁路"的款式，跟LoRA（Low-RankAdaptation）尽头相似，这启发了一个微调场景下的瞻仰瞻仰想路。

LoRA的中枢想想是：冻结预教诲好的大模子权重，只在关节层傍边加一条low-rank旁路来作念微调。受PRISM款式的启发，咱们不错设计一种面向LinearAttention/SSM模子的参数高效微调智力：对已教诲好的模子，冻结基础迭代过程，只在写入歧路上加多一条PRISM立场的残差拟合旁路，此外，这条旁路有闭合式（不加多教诲期间），并且第一步退化为原模子的程序写入（不碎裂预教诲学问）。这意味着它得志LoRA的两个关节要求：参数高效和不毁伤原模子能力。

结语

PRISM考证了"写入前想考"范式在线性耀主见模子中的可行性：通过分析TTT-MLP的梯度结构揭示步长×残差×标的迭代模式，在线性情景上显式重建该模式并通过anchor代理和闭合式瞻望算杀青王人备并行。最终架构极简——GDN+非线性旁路，教诲速率与GDN同级，参数增量不到10%。在保举和说话建模两个场景上的考证标明，这是一项通用的线性耀主见增强时候。异日咱们将进一步探索PRISM在更大参数规模上的scaling活动和保举系统上的应用收尾，以过火手脚线性耀主见模子参数高效微调智力的试验收尾。

参考文件：

[1]Sunetal.“Learningto(LearnatTestTime):RNNswithExpressiveHiddenStates.”NeurIPS2024.

[2]Yangetal.“GatedDeltaNetworkswithPairwiseTokenizedGraphs.”NeurIPS2024.

[3]Katharopoulosetal.“TransformersareRNNs:FastAutoregressiveTransformerswithLinearAttention.”ICML2020.2026世界杯最新押注登录平台