Attention Residuals

作者: Kimi Team (Guangyu Chen, Yu Zhang, Jianlin Su, et al.) 年份: 2026 会议: arXiv 分类: 网络架构

论文笔记:Attention Residuals

元信息

项目内容
机构Moonshot AI (Kimi Team)
日期March 2026
项目主页GitHub
对比基线Residual Connection, DenseFormer, mHC
链接arXiv / Code

一句话总结

Softmax attention 替代固定权重的 残差连接,让每层可选择性聚合之前所有层的输出,缓解 PreNorm dilution 问题

核心贡献

Attention Residuals (AttnRes): 将残差连接的固定累加替换为深度维度上的 learned Softmax attention,每层通过一个可学习 pseudo-query 向量选择性聚合所有前序层输出

Block AttnRes: 将层分组为 NN 个 block,跨 block 用 attention、block 内用标准求和,将内存和通信开销从 O(Ld)O(Ld) 降到 O(Nd)O(Nd)

系统工程优化: cross-stage caching 消除 pipeline parallelism 下的冗余传输,two-phase 推理策略使延迟开销 <2%

问题背景

要解决的问题

标准 残差连接 以固定权重 1 累加所有前序层输出,导致三个问题:

  1. 无选择性访问:不同类型的层(attention vs MLP)接收相同的聚合状态
  2. 不可逆信息丢失:聚合后的信息无法选择性恢复
  3. 输出幅度增长:深层必须学习越来越大的输出来在累积残差中保持影响力

现有方法的局限

PreNorm 导致隐状态幅度随深度以 O(L)O(L) 增长,逐渐稀释每层的相对贡献(PreNorm dilution

Highway Network 引入 element-wise 门控,但仍然只能访问前一层的压缩状态 hl1\boldsymbol{h}_{l-1}

DenseFormer 赋予每层对所有前序输出的访问,但使用固定的、输入无关的标量系数

mHC 通过 mm 条并行流引入输入依赖性,但混合矩阵复杂度高,I/O 开销大(34d34d vs AttnRes 的 5.5d5.5d

本文的动机

观察到深度维度上的残差累加与序列维度上的 RNN 递推存在对偶关系

Transformer 用 attention 替代 RNN 的线性递推解决了序列建模问题;类比地,可以用 attention 替代残差连接的固定累加来解决深度维度上的信息聚合问题

网络深度 L<1000L<1000 远小于序列长度,depth-wise attention 的 O(L2)O(L^2) 开销完全可接受

方法详解

模型架构

AttnRes 在标准 Transformer 架构上仅修改残差连接机制

  • 架构基底: Kimi Linear / DeepSeek-V3 的 MoE Transformer(KDA + MLA + MoE FFN)
  • 新增参数: 每层仅增加一个 RMSNorm 和一个 dd 维 pseudo-query 向量 wl\boldsymbol{w}_l,参数量可忽略不计
  • 初始化: 所有 pseudo-query 初始化为零,使初始 attention 权重均匀,等价于标准残差连接
  • 两种变体: Full AttnRes(attention over 所有前序层)和 Block AttnRes(分组 attention)

核心模块

模块1: Full Attention Residuals

设计动机: 让每层通过 Softmax attention 选择性聚合所有前序层的输出

具体实现:

  • 每层 ll 有一个可学习的 pseudo-query ql=wlRd\boldsymbol{q}_l = \boldsymbol{w}_l \in \mathbb{R}^d
  • key 和 value 来自所有前序层输出:ki=vi=fi(hi)\boldsymbol{k}_i = \boldsymbol{v}_i = f_i(\boldsymbol{h}_i)i1i \geq 1),embedding 为 v0=h1\boldsymbol{v}_0 = \boldsymbol{h}_1
  • 使用 ϕ(q,k)=exp(qRMSNorm(k))\phi(\boldsymbol{q}, \boldsymbol{k}) = \exp(\boldsymbol{q}^\top \text{RMSNorm}(\boldsymbol{k})) 作为 kernel function
  • 输入到第 ll 层为 hl=i=0l1αilvi\boldsymbol{h}_l = \sum_{i=0}^{l-1} \alpha_{i \to l} \cdot \boldsymbol{v}_i
  • 内存开销 O(Ld)O(Ld),计算 O(L2d)O(L^2 d)

模块2: Block Attention Residuals

设计动机: Full AttnRes 在 pipeline parallelism 下每层输出都要跨 stage 传输,通信开销 O(Ld)O(Ld) 不可接受

具体实现:

  • LL 层分为 NN 个 block,每 block S=L/NS = L/N
  • block 内: 标准残差求和 bn=jBnfj(hj)\boldsymbol{b}_n = \sum_{j \in \mathcal{B}_n} f_j(\boldsymbol{h}_j)
  • block 间: 对 NN 个 block 级别表示做 Softmax attention
  • 当前 block 内的层还额外 attend 到不断累积的 intra-block partial sum bni\boldsymbol{b}_n^i
  • 内存和通信降至 O(Nd)O(Nd),计算 O(N2)O(N^2)
  • 经验发现 N8N \approx 8 即可恢复 Full AttnRes 的大部分收益

模块3: Two-Phase Computation(推理优化)

Phase 1: 批量计算 block 内所有 SS 层的 inter-block attention(共享 KV cache),将内存访问从 SS 次降到 1 次

Phase 2: 顺序计算 intra-block attention,用 online softmax 与 Phase 1 结果合并

总 per-layer I/O 仅 (N2+5)d(\frac{N}{2}+5)d(典型值 5.5d5.5d),vs 标准残差的 3d3d

关键公式

公式1: 标准残差更新

hl=hl1+fl1(hl1)\boldsymbol{h}_l = \boldsymbol{h}_{l-1} + f_{l-1}(\boldsymbol{h}_{l-1})

含义: 标准残差连接以固定权重 1 累加,展开后 hl=h1+i=1l1fi(hi)\boldsymbol{h}_l = \boldsymbol{h}_1 + \sum_{i=1}^{l-1} f_i(\boldsymbol{h}_i)

符号说明:

  • hlRd\boldsymbol{h}_l \in \mathbb{R}^d: 第 ll 层的隐状态
  • flf_l: 第 ll 层的变换函数(self-attention 或 MLP)

公式2: Attention Residuals 核心公式

hl=α0lh1+i=1l1αilfi(hi)\boldsymbol{h}_l = \alpha_{0 \to l} \cdot \boldsymbol{h}_1 + \sum_{i=1}^{l-1} \alpha_{i \to l} \cdot f_i(\boldsymbol{h}_i)

含义: 用 learned attention 权重 αil\alpha_{i \to l} 替代固定权重 1,实现选择性深度聚合

符号说明:

  • αil\alpha_{i \to l}: 层 ll 对层 ii 输出的 attention 权重,i=0l1αil=1\sum_{i=0}^{l-1} \alpha_{i \to l} = 1
  • h1\boldsymbol{h}_1: token embedding

公式3: Attention 权重计算

αil=ϕ(ql,ki)j=0l1ϕ(ql,kj)\alpha_{i \to l} = \frac{\phi(\boldsymbol{q}_l, \boldsymbol{k}_i)}{\sum_{j=0}^{l-1} \phi(\boldsymbol{q}_l, \boldsymbol{k}_j)}

含义: 通过 kernel function ϕ\phi 计算归一化的 attention 权重

符号说明:

  • ϕ(q,k)=exp(qRMSNorm(k))\phi(\boldsymbol{q}, \boldsymbol{k}) = \exp(\boldsymbol{q}^\top \text{RMSNorm}(\boldsymbol{k})): 保证非负的 kernel function
  • ql=wl\boldsymbol{q}_l = \boldsymbol{w}_l: 可学习的 pseudo-query 向量
  • ki=vi\boldsymbol{k}_i = \boldsymbol{v}_i: key/value 共享,来自前序层输出

公式4: Full AttnRes 层输入

hl=i=0l1αilvi\boldsymbol{h}_l = \sum_{i=0}^{l-1} \alpha_{i \to l} \cdot \boldsymbol{v}_i

含义: Full AttnRes 的简洁形式,每层输入是所有前序层输出的 attention-weighted sum

符号说明:

  • v0=h1\boldsymbol{v}_0 = \boldsymbol{h}_1 (embedding), vi=fi(hi)\boldsymbol{v}_i = f_i(\boldsymbol{h}_i) for 1il11 \leq i \leq l-1

公式5: Block 内累加

bn=jBnfj(hj)\boldsymbol{b}_n = \sum_{j \in \mathcal{B}_n} f_j(\boldsymbol{h}_j)

含义: 每个 block 内的层输出通过标准求和压缩为单一表示

符号说明:

  • Bn\mathcal{B}_n: 第 nn 个 block 包含的层索引集合
  • bni\boldsymbol{b}_n^i: 前 ii 层的 partial sum

公式6: Block AttnRes 值矩阵

V={[b0,b1,,bn1]if i=1 (block 首层)[b0,b1,,bn1,bni1]if i2 (后续层)\mathbf{V} = \begin{cases} [\boldsymbol{b}_0, \boldsymbol{b}_1, \ldots, \boldsymbol{b}_{n-1}]^\top & \text{if } i=1 \text{ (block 首层)} \\ [\boldsymbol{b}_0, \boldsymbol{b}_1, \ldots, \boldsymbol{b}_{n-1}, \boldsymbol{b}_n^{i-1}]^\top & \text{if } i \geq 2 \text{ (后续层)} \end{cases}

含义: block 首层 attend 到所有已完成 block;后续层额外 attend 到当前 block 的 partial sum

公式7: 朴素通信开销

Commnaı¨ve=j=1C1jNpd=C(C1)2Npd\text{Comm}_\text{naïve} = \sum_{j=1}^{C-1} j N_p \cdot d = \frac{C(C-1)}{2} N_p d

含义: 不做优化时每次 stage 转换要传输所有累积的 block representations

符号说明:

  • C=PVC = PV: 总 chunk 数(PP 物理 stage ×\times VV 虚拟 stage)
  • NpN_p: 每个物理 stage 平均产生的 block 数

公式8: 缓存优化通信

Commcached=P(P1)2Npdfirst virtual stage+(V1)P2Npdsubsequent virtual stages\text{Comm}_\text{cached} = \underbrace{\frac{P(P-1)}{2} N_p d}_{\text{first virtual stage}} + \underbrace{(V-1) P^2 N_p d}_{\text{subsequent virtual stages}}

含义: cross-stage caching 使峰值通信从 O(C)O(C) 降到 O(P)O(P),实现 V×V\times 的改善

公式9: Sequence-Depth 对偶——TTT 递推

Wt=Wt1η(Wt1;xt)\mathbf{W}_t = \mathbf{W}_{t-1} - \eta \nabla \ell(\mathbf{W}_{t-1}; \boldsymbol{x}_t)

含义: Test-Time Training 将序列递推形式化为梯度下降,展示了时间-深度对偶性

符号说明:

  • Wt\mathbf{W}_t: 第 tt 步的模型状态
  • \ell: 自监督损失

公式10: mHC 权重展开

Mil=βiAi+1l×αl\mathbf{M}_{i \to l} = \boldsymbol{\beta}_i^\top \mathbf{A}_{i+1 \to l}^\times \boldsymbol{\alpha}_l

含义: mHC 的 depth mixing 权重可以展开为 structured matrix 形式,揭示其 mm-semiseparable 结构

符号说明:

  • Aij×:=k=i+1jAk\mathbf{A}_{i \to j}^\times := \prod_{k=i+1}^{j} \mathbf{A}_k: 累积转移矩阵
  • αl,βiRm\boldsymbol{\alpha}_l, \boldsymbol{\beta}_i \in \mathbb{R}^m: mixing 向量

公式11: Scaling Law 拟合

Baseline: L=1.891×C0.057\mathcal{L} = 1.891 \times C^{-0.057}

Block AttnRes: L=1.870×C0.058\mathcal{L} = 1.870 \times C^{-0.058}

Full AttnRes: L=1.865×C0.057\mathcal{L} = 1.865 \times C^{-0.057}

含义: 三种方法 slope 相近,但 AttnRes 一致性地在整个 compute range 上取得更低 loss

关键图表

Figure 1: Overview / 三种残差连接对比

Figure 1: Overview{:width 600}

说明: (a) Standard Residuals: 固定权重 1 的加性累加;(b) Full AttnRes: 每层通过 learned attention 选择性聚合所有前序层输出;(c) Block AttnRes: 层分组为 block,block 内求和、block 间 attention,内存从 O(Ld)O(Ld) 降到 O(Nd)O(Nd)

Figure 2: PyTorch 伪代码 / Block AttnRes 实现

说明: block_attn_res 函数接收 block representations 列表和 intra-block partial sum,通过 torch.einsum 计算 pseudo-query 与 RMSNorm 归一化后的 keys 之间的 logits,再用 Softmax 加权聚合。forward 函数展示了完整的层内流程:先 apply AttnRes → attention → AttnRes → MLP,在 block 边界处将 partial_block 加入 blocks 列表

Figure 3: Pipeline 通信优化

说明: 4 个物理 rank、2 个虚拟 stage 的 cache-based pipeline 通信示例。每个 rank 缓存之前收到的 block representations(hatched boxes),stage 转换时仅传输增量 block(如 +[b1,b2]+[\boldsymbol{b}_1, \boldsymbol{b}_2]),消除了 6 次冗余传输

Figure 4: Scaling Law 曲线

Figure 4: Scaling Laws{:width 600}

说明: Full 和 Block AttnRes 在所有 compute budget 下都一致超越 baseline。在 5.6 PFLOP/s-days 时,Block AttnRes 达到 1.692 vs Baseline 的 1.714,相当于 1.25x compute advantage。Block 与 Full 的差距随 scale 缩小,最大规模时仅差 0.001

Figure 5: 训练动态对比

Figure 5: Training Dynamics{:width 600}

说明: (a) Validation loss: AttnRes 全程更低,decay 阶段差距拉大;(b) Output magnitude: Baseline 随深度单调增长(PreNorm dilution),Block AttnRes 呈有界周期性模式(block 边界重置累加);(c) Gradient magnitude: Baseline 梯度在浅层异常大,AttnRes 的 Softmax 竞争机制使梯度分布更均匀

Figure 6: Block Size 消融

说明: 16层模型上 Block Size SS 的影响。S=1S=1 即 Full AttnRes (loss 1.737),S=2,4,8S=2,4,8 都接近 1.746,S=16S=16 (=1 block) 退化为 1.757 接近 baseline (1.766)。N8N \approx 8 即可恢复大部分收益

Figure 7: 架构搜索热力图

说明: 固定 compute (6.5×10196.5 \times 10^{19} FLOPs) 和参数量 (2.3×1082.3 \times 10^8) 下的 25 种 (dmodel/Lb,H/Lb)(d_\text{model}/L_b, H/L_b) 配置。关键发现: Baseline 最优点在 dmodel/Lb60d_\text{model}/L_b \approx 60 (1.847),AttnRes 将最优点移至 dmodel/Lb45d_\text{model}/L_b \approx 45 (1.802),即 AttnRes 偏好更深更窄的网络

Figure 8: Attention 权重热力图

说明: 16-head 模型的 depth-wise attention 权重分布。三个关键观察: (1) 保持局部性: 对角线主导,每层主要 attend 前一层;(2) 层特化: embedding (h1\boldsymbol{h}_1) 在整个深度上保持显著权重,pre-MLP 输入更依赖近邻,pre-attention 输入保持更广的 receptive field;(3) Block 保持结构: Full→Block 压缩后关键模式全部保留,block 压缩起到隐式正则化作用

Figure 9: Depth Mixing Matrix 对比

说明: 四种残差变体的 depth mixing matrix M\mathbf{M}L=4L=4)。Standard residual: 全 1 下三角;Highway Network: 1-semiseparable(累积门控积);mHC: mm-semiseparable(learned 转移矩阵);Full AttnRes: dense rank-LL(每个元素是独立的 ϕ(wl,ki)\phi(\boldsymbol{w}_l, \boldsymbol{k}_i) score);Block AttnRes: 同 block 内共享 key/value,rank 介于 NNN+SN+S 之间

Table 1: Memory I/O 对比

方法OperationReadWriteTotal I/O (Typical)
Standard ResidualsResidual Merge2d2ddd3d3d
mHC (mm streams)全部操作3d3d (mm=4 时 34d34d)
Full AttnResPhase 1 + Phase 2(N1)d+(S1)d(N-1)d + (S-1)dd+dd + d24d24d
Block AttnResPhase 1 + Phase 2N2d+3d\frac{N}{2}d + 3dd+dd + d5.5d5.5d

说明: Block AttnRes 的 per-layer I/O 仅 5.5d5.5d,远低于 mHC 的 34d34d,接近标准残差的 3d3d

Table 2: Scaling Law 配置与结果

# Act. ParamsTokensLbL_bHHdmodeld_\text{model}dffd_\text{ff}lrVal. Loss (Baseline)Val. Loss (Block AttnRes)Val. Loss (Full AttnRes)
194M38.7B12128964002.99e-31.9311.9091.899
241M45.4B13139604322.80e-31.8951.8751.869
296M62.1B141410244642.50e-31.8291.8091.804
436M87.9B161611685282.20e-31.7661.7461.737
528M119.0B171712645602.02e-31.7191.6931.692

说明: 所有 scale 下 AttnRes 一致超越 baseline,Block AttnRes 与 Full AttnRes 差距随 scale 缩小

Table 3: 48B 模型下游 Benchmark 结果

类别BenchmarkBaselineAttnRes
GeneralMMLU73.574.6
GeneralMMLU-Pro52.252.2
GeneralGPQA-Diamond36.944.4
GeneralBBH76.378.0
GeneralARC-Challenge64.665.7
GeneralHellaSwag83.283.4
GeneralTriviaQA69.971.8
Math & CodeGSM8K81.782.4
Math & CodeMGSM64.966.1
Math & CodeMath53.557.1
Math & CodeCMath84.785.1
Math & CodeHumanEval59.162.2
Math & CodeMBPP72.073.9
ChineseCMMLU82.082.9
ChineseC-Eval79.682.5

说明: AttnRes 在所有 benchmark 上匹配或超越 baseline。多步推理任务收益最显著: GPQA-Diamond +7.5, Math +3.6, HumanEval +3.1,支持”改善 depth-wise 信息流有利于组合性任务”的假说

Table 4: 消融实验(16层模型)

变体Loss说明
Baseline (PreNorm)1.766
DenseFormer1.767固定系数,无收益
mHC1.747mm 并行流
Full AttnRes1.737最佳
w/ input-dependent query1.731更好但推理需序列访问
w/ input-independent mixing1.749去掉 q/k 退化
w/ sigmoid1.741softmax 的竞争性归一化更优
w/o RMSNorm1.743RMSNorm 防止大幅度层主导
SWA (W=1+8W=1+8)1.764滑窗不如选择性远距离访问
Block (S=4S=4)1.746实用最优
w/ multihead (H=16H=16)1.752多头反而不如单头
w/o RMSNorm (Block)1.750Block 下 RMSNorm 更关键

关键发现: (1) Softmax 优于 sigmoid(竞争性归一化更好);(2) 单头优于多头(最优 depth mixture 在通道间高度一致);(3) RMSNorm on keys 是关键组件,防止大幅度输出主导 attention

Table 5: 残差更新机制统一对比

方法更新规则权重类型可访问的源
Residualhl=hl1+fl1(hl1)\boldsymbol{h}_l = \boldsymbol{h}_{l-1} + f_{l-1}(\boldsymbol{h}_{l-1})Fixedhl1\boldsymbol{h}_{l-1}
ReZerohl=hl1+αlfl1(hl1)\boldsymbol{h}_l = \boldsymbol{h}_{l-1} + \alpha_l \cdot f_{l-1}(\boldsymbol{h}_{l-1})Statichl1\boldsymbol{h}_{l-1}
LayerScalehl=hl1+diag(λl)fl1(hl1)\boldsymbol{h}_l = \boldsymbol{h}_{l-1} + \text{diag}(\boldsymbol{\lambda}_l) \cdot f_{l-1}(\boldsymbol{h}_{l-1})Statichl1\boldsymbol{h}_{l-1}
Highway Networkhl=(1gl)hl1+glfl1(hl1)\boldsymbol{h}_l = (1-\boldsymbol{g}_l) \odot \boldsymbol{h}_{l-1} + \boldsymbol{g}_l \odot f_{l-1}(\boldsymbol{h}_{l-1})Dynamichl1\boldsymbol{h}_{l-1}
DenseFormerhl=α0lh1+αilfi(hi)\boldsymbol{h}_l = \alpha_{0\to l} \boldsymbol{h}_1 + \sum \alpha_{i\to l} f_i(\boldsymbol{h}_i)Static[h1,,hl1][\boldsymbol{h}_1, \ldots, \boldsymbol{h}_{l-1}]
mHCmm 并行流 + 混合矩阵Dynamic[h1,,hl1][\boldsymbol{h}_1, \ldots, \boldsymbol{h}_{l-1}]
AttnRes (Full)hlϕ(wl,ki)vi\boldsymbol{h}_l \propto \sum \phi(\boldsymbol{w}_l, \boldsymbol{k}_i) \boldsymbol{v}_iDynamic[h1,,hl1][\boldsymbol{h}_1, \ldots, \boldsymbol{h}_{l-1}]
AttnRes (Block)hlϕ(wl,kn)vn\boldsymbol{h}_l \propto \sum \phi(\boldsymbol{w}_l, \boldsymbol{k}_n') \boldsymbol{v}_n'Dynamic[b0,,bn1,bni][\boldsymbol{b}_0, \ldots, \boldsymbol{b}_{n-1}, \boldsymbol{b}_n^i]

说明: AttnRes 是唯一同时满足 dynamic weight + cross-layer access + softmax attention 的方法。标准残差对应 depth-wise linear attention,AttnRes 对应 depth-wise softmax attention

实验

数据集

数据集规模特点用途
Kimi Linear 预训练数据1.4T tokens与 Kimi Linear 相同48B 模型预训练
Scaling Law 数据38.7B-119.0B tokens5 种 scaleScaling law 验证
高质量数据~400B tokensmid-training 数据Annealing

实现细节

架构: Kimi Linear 48B total / 3B activated(27 Transformer blocks,54 层)

Block 配置: 6 layers/block → 9 blocks + embedding = 10 depth-wise sources

优化器: Muon optimizer

学习率: WSD (Warmup-Stable-Decay) schedule

Batch Size: 8M tokens (global)

Context Length: 4096 → 32K(逐步扩展)

预训练: Phase 1: 1T tokens WSD → Phase 2: ~400B tokens mid-training (Moonlight recipe)

位置编码: KDA 用 RoPE,MLA 用 NoPE,context extension 无需 YaRN

可视化结果

Attention 权重热力图揭示了三种模式:局部性(对角线)、embedding persistence(第 0 列)、learned skip connections(off-diagonal concentrations)

Block 压缩保留了 Full AttnRes 的核心信息通路,起到隐式正则化作用

批判性思考

优点

理论优雅: 将残差连接与 RNN/attention 的时间-深度对偶关系形式化,用 structured matrix 统一现有方法

工程实用: Block AttnRes 每层仅增加 1 个 dd 维向量和 1 个 RMSNorm,推理延迟开销 <2%

系统化消融: 每个设计选择(softmax vs sigmoid、单头 vs 多头、RMSNorm on keys)都有充分的消融支持

规模验证: 从 194M 到 48B 参数,scaling law 拟合到 1.4T token 预训练,验证充分

缓解 PreNorm dilution: 有界的输出幅度和均匀的梯度分布是实质性的训练稳定性改善

局限性

仅验证 MoE 架构: 所有实验基于 Kimi Linear (MoE+KDA+MLA),未验证 dense Transformer (GPT/LLaMA style)

推理仍有额外开销: 虽然 <2%,但在对延迟极度敏感的场景仍不可忽视

Input-dependent query 更好但被放弃: loss 1.731 vs 1.737,因推理需序列依赖而未采用,存在改进空间

Block 边界硬性固定: block 划分是静态等分,未探索自适应分组

缺乏长上下文评估: 论文未报告 NIAH 或 LongBench 等长上下文 benchmark

潜在改进方向

Linear attention variant: 用 depth-wise linear attention (如 GLA/RetNet style) 替代 full softmax,进一步降低开销

Adaptive blocking: 根据层间相似度动态决定 block 边界

与其他 normalization 结合: 探索 PostNorm / HybridNorm 下 AttnRes 的效果

Dense model 验证: 在 LLaMA-style dense Transformer 上验证通用性

Input-dependent query 的高效实现: 设计不需要序列依赖的 input-dependent query 方案

可复现性评估

  • 代码开源 (GitHub)
  • 预训练模型(未提供)
  • 训练细节完整(超参数、schedule、数据量都有详细说明)
  • 数据集可获取(Kimi 内部数据)

关联笔记

基于

残差连接: He et al. 2015,本文的改进目标

PreNorm: 导致 dilution 问题的 normalization 范式

Highway Network: element-wise gating 的先驱,AttnRes 从 gating 推广到 cross-layer attention

对比

DenseFormer: cross-layer access 但 input-independent 标量系数

mHC: mm 并行流 + learned mixing matrix,I/O 开销高

ReZero: 可学习标量但仅访问前一层

LayerScale: 可学习 element-wise 系数但仅访问前一层

方法相关

Softmax: AttnRes 的核心注意力归一化

RMSNorm: 防止大幅度层主导 attention 权重的关键组件

online softmax: two-phase 推理中合并 inter/intra-block 结果

pipeline parallelism: Block AttnRes 的工程动机

MoE: 实验采用的模型架构

Kimi Linear: 48B 实验的基础架构

硬件/数据相关

neural scaling law: 验证 AttnRes 在不同 compute budget 下的一致收益

速查卡片

Attention Residuals

  • 核心: 用 depth-wise softmax attention 替代固定残差累加,让每层选择性聚合前序层输出
  • 方法: 每层一个 dd 维 pseudo-query → softmax over 前序层 → weighted sum;Block 变体分组压缩至 O(Nd)O(Nd)
  • 结果: 1.25x compute advantage,48B 模型 GPQA +7.5, Math +3.6, HumanEval +3.1
  • 代码: https://github.com/MoonshotAI/Attention-Residuals

笔记创建时间: 2026-03-20