Attention Residuals
论文笔记:Attention Residuals
元信息
| 项目 | 内容 |
|---|---|
| 机构 | Moonshot AI (Kimi Team) |
| 日期 | March 2026 |
| 项目主页 | GitHub |
| 对比基线 | Residual Connection, DenseFormer, mHC |
| 链接 | arXiv / Code |
一句话总结
用 Softmax attention 替代固定权重的 残差连接,让每层可选择性聚合之前所有层的输出,缓解 PreNorm dilution 问题
核心贡献
Attention Residuals (AttnRes): 将残差连接的固定累加替换为深度维度上的 learned Softmax attention,每层通过一个可学习 pseudo-query 向量选择性聚合所有前序层输出
Block AttnRes: 将层分组为 个 block,跨 block 用 attention、block 内用标准求和,将内存和通信开销从 降到
系统工程优化: cross-stage caching 消除 pipeline parallelism 下的冗余传输,two-phase 推理策略使延迟开销 <2%
问题背景
要解决的问题
标准 残差连接 以固定权重 1 累加所有前序层输出,导致三个问题:
- 无选择性访问:不同类型的层(attention vs MLP)接收相同的聚合状态
- 不可逆信息丢失:聚合后的信息无法选择性恢复
- 输出幅度增长:深层必须学习越来越大的输出来在累积残差中保持影响力
现有方法的局限
PreNorm 导致隐状态幅度随深度以 增长,逐渐稀释每层的相对贡献(PreNorm dilution)
Highway Network 引入 element-wise 门控,但仍然只能访问前一层的压缩状态
DenseFormer 赋予每层对所有前序输出的访问,但使用固定的、输入无关的标量系数
mHC 通过 条并行流引入输入依赖性,但混合矩阵复杂度高,I/O 开销大( vs AttnRes 的 )
本文的动机
观察到深度维度上的残差累加与序列维度上的 RNN 递推存在对偶关系
Transformer 用 attention 替代 RNN 的线性递推解决了序列建模问题;类比地,可以用 attention 替代残差连接的固定累加来解决深度维度上的信息聚合问题
网络深度 远小于序列长度,depth-wise attention 的 开销完全可接受
方法详解
模型架构
AttnRes 在标准 Transformer 架构上仅修改残差连接机制:
- 架构基底: Kimi Linear / DeepSeek-V3 的 MoE Transformer(KDA + MLA + MoE FFN)
- 新增参数: 每层仅增加一个 RMSNorm 和一个 维 pseudo-query 向量 ,参数量可忽略不计
- 初始化: 所有 pseudo-query 初始化为零,使初始 attention 权重均匀,等价于标准残差连接
- 两种变体: Full AttnRes(attention over 所有前序层)和 Block AttnRes(分组 attention)
核心模块
模块1: Full Attention Residuals
设计动机: 让每层通过 Softmax attention 选择性聚合所有前序层的输出
具体实现:
- 每层 有一个可学习的 pseudo-query
- key 和 value 来自所有前序层输出:(),embedding 为
- 使用 作为 kernel function
- 输入到第 层为
- 内存开销 ,计算
模块2: Block Attention Residuals
设计动机: Full AttnRes 在 pipeline parallelism 下每层输出都要跨 stage 传输,通信开销 不可接受
具体实现:
- 将 层分为 个 block,每 block 层
- block 内: 标准残差求和
- block 间: 对 个 block 级别表示做 Softmax attention
- 当前 block 内的层还额外 attend 到不断累积的 intra-block partial sum
- 内存和通信降至 ,计算
- 经验发现 即可恢复 Full AttnRes 的大部分收益
模块3: Two-Phase Computation(推理优化)
Phase 1: 批量计算 block 内所有 层的 inter-block attention(共享 KV cache),将内存访问从 次降到 1 次
Phase 2: 顺序计算 intra-block attention,用 online softmax 与 Phase 1 结果合并
总 per-layer I/O 仅 (典型值 ),vs 标准残差的
关键公式
公式1: 标准残差更新
含义: 标准残差连接以固定权重 1 累加,展开后
符号说明:
- : 第 层的隐状态
- : 第 层的变换函数(self-attention 或 MLP)
公式2: Attention Residuals 核心公式
含义: 用 learned attention 权重 替代固定权重 1,实现选择性深度聚合
符号说明:
- : 层 对层 输出的 attention 权重,
- : token embedding
公式3: Attention 权重计算
含义: 通过 kernel function 计算归一化的 attention 权重
符号说明:
- : 保证非负的 kernel function
- : 可学习的 pseudo-query 向量
- : key/value 共享,来自前序层输出
公式4: Full AttnRes 层输入
含义: Full AttnRes 的简洁形式,每层输入是所有前序层输出的 attention-weighted sum
符号说明:
- (embedding), for
公式5: Block 内累加
含义: 每个 block 内的层输出通过标准求和压缩为单一表示
符号说明:
- : 第 个 block 包含的层索引集合
- : 前 层的 partial sum
公式6: Block AttnRes 值矩阵
含义: block 首层 attend 到所有已完成 block;后续层额外 attend 到当前 block 的 partial sum
公式7: 朴素通信开销
含义: 不做优化时每次 stage 转换要传输所有累积的 block representations
符号说明:
- : 总 chunk 数( 物理 stage 虚拟 stage)
- : 每个物理 stage 平均产生的 block 数
公式8: 缓存优化通信
含义: cross-stage caching 使峰值通信从 降到 ,实现 的改善
公式9: Sequence-Depth 对偶——TTT 递推
含义: Test-Time Training 将序列递推形式化为梯度下降,展示了时间-深度对偶性
符号说明:
- : 第 步的模型状态
- : 自监督损失
公式10: mHC 权重展开
含义: mHC 的 depth mixing 权重可以展开为 structured matrix 形式,揭示其 -semiseparable 结构
符号说明:
- : 累积转移矩阵
- : mixing 向量
公式11: Scaling Law 拟合
Baseline:
Block AttnRes:
Full AttnRes:
含义: 三种方法 slope 相近,但 AttnRes 一致性地在整个 compute range 上取得更低 loss
关键图表
Figure 1: Overview / 三种残差连接对比
{:width 600}
说明: (a) Standard Residuals: 固定权重 1 的加性累加;(b) Full AttnRes: 每层通过 learned attention 选择性聚合所有前序层输出;(c) Block AttnRes: 层分组为 block,block 内求和、block 间 attention,内存从 降到
Figure 2: PyTorch 伪代码 / Block AttnRes 实现
说明: block_attn_res 函数接收 block representations 列表和 intra-block partial sum,通过 torch.einsum 计算 pseudo-query 与 RMSNorm 归一化后的 keys 之间的 logits,再用 Softmax 加权聚合。forward 函数展示了完整的层内流程:先 apply AttnRes → attention → AttnRes → MLP,在 block 边界处将 partial_block 加入 blocks 列表
Figure 3: Pipeline 通信优化
说明: 4 个物理 rank、2 个虚拟 stage 的 cache-based pipeline 通信示例。每个 rank 缓存之前收到的 block representations(hatched boxes),stage 转换时仅传输增量 block(如 ),消除了 6 次冗余传输
Figure 4: Scaling Law 曲线
{:width 600}
说明: Full 和 Block AttnRes 在所有 compute budget 下都一致超越 baseline。在 5.6 PFLOP/s-days 时,Block AttnRes 达到 1.692 vs Baseline 的 1.714,相当于 1.25x compute advantage。Block 与 Full 的差距随 scale 缩小,最大规模时仅差 0.001
Figure 5: 训练动态对比
{:width 600}
说明: (a) Validation loss: AttnRes 全程更低,decay 阶段差距拉大;(b) Output magnitude: Baseline 随深度单调增长(PreNorm dilution),Block AttnRes 呈有界周期性模式(block 边界重置累加);(c) Gradient magnitude: Baseline 梯度在浅层异常大,AttnRes 的 Softmax 竞争机制使梯度分布更均匀
Figure 6: Block Size 消融
说明: 16层模型上 Block Size 的影响。 即 Full AttnRes (loss 1.737), 都接近 1.746, (=1 block) 退化为 1.757 接近 baseline (1.766)。 即可恢复大部分收益
Figure 7: 架构搜索热力图
说明: 固定 compute ( FLOPs) 和参数量 () 下的 25 种 配置。关键发现: Baseline 最优点在 (1.847),AttnRes 将最优点移至 (1.802),即 AttnRes 偏好更深更窄的网络
Figure 8: Attention 权重热力图
说明: 16-head 模型的 depth-wise attention 权重分布。三个关键观察: (1) 保持局部性: 对角线主导,每层主要 attend 前一层;(2) 层特化: embedding () 在整个深度上保持显著权重,pre-MLP 输入更依赖近邻,pre-attention 输入保持更广的 receptive field;(3) Block 保持结构: Full→Block 压缩后关键模式全部保留,block 压缩起到隐式正则化作用
Figure 9: Depth Mixing Matrix 对比
说明: 四种残差变体的 depth mixing matrix ()。Standard residual: 全 1 下三角;Highway Network: 1-semiseparable(累积门控积);mHC: -semiseparable(learned 转移矩阵);Full AttnRes: dense rank-(每个元素是独立的 score);Block AttnRes: 同 block 内共享 key/value,rank 介于 和 之间
Table 1: Memory I/O 对比
| 方法 | Operation | Read | Write | Total I/O (Typical) |
|---|---|---|---|---|
| Standard Residuals | Residual Merge | |||
| mHC ( streams) | 全部操作 | — | — | (=4 时 ) |
| Full AttnRes | Phase 1 + Phase 2 | |||
| Block AttnRes | Phase 1 + Phase 2 |
说明: Block AttnRes 的 per-layer I/O 仅 ,远低于 mHC 的 ,接近标准残差的
Table 2: Scaling Law 配置与结果
| # Act. Params | Tokens | lr | Val. Loss (Baseline) | Val. Loss (Block AttnRes) | Val. Loss (Full AttnRes) | ||||
|---|---|---|---|---|---|---|---|---|---|
| 194M | 38.7B | 12 | 12 | 896 | 400 | 2.99e-3 | 1.931 | 1.909 | 1.899 |
| 241M | 45.4B | 13 | 13 | 960 | 432 | 2.80e-3 | 1.895 | 1.875 | 1.869 |
| 296M | 62.1B | 14 | 14 | 1024 | 464 | 2.50e-3 | 1.829 | 1.809 | 1.804 |
| 436M | 87.9B | 16 | 16 | 1168 | 528 | 2.20e-3 | 1.766 | 1.746 | 1.737 |
| 528M | 119.0B | 17 | 17 | 1264 | 560 | 2.02e-3 | 1.719 | 1.693 | 1.692 |
说明: 所有 scale 下 AttnRes 一致超越 baseline,Block AttnRes 与 Full AttnRes 差距随 scale 缩小
Table 3: 48B 模型下游 Benchmark 结果
| 类别 | Benchmark | Baseline | AttnRes |
|---|---|---|---|
| General | MMLU | 73.5 | 74.6 |
| General | MMLU-Pro | 52.2 | 52.2 |
| General | GPQA-Diamond | 36.9 | 44.4 |
| General | BBH | 76.3 | 78.0 |
| General | ARC-Challenge | 64.6 | 65.7 |
| General | HellaSwag | 83.2 | 83.4 |
| General | TriviaQA | 69.9 | 71.8 |
| Math & Code | GSM8K | 81.7 | 82.4 |
| Math & Code | MGSM | 64.9 | 66.1 |
| Math & Code | Math | 53.5 | 57.1 |
| Math & Code | CMath | 84.7 | 85.1 |
| Math & Code | HumanEval | 59.1 | 62.2 |
| Math & Code | MBPP | 72.0 | 73.9 |
| Chinese | CMMLU | 82.0 | 82.9 |
| Chinese | C-Eval | 79.6 | 82.5 |
说明: AttnRes 在所有 benchmark 上匹配或超越 baseline。多步推理任务收益最显著: GPQA-Diamond +7.5, Math +3.6, HumanEval +3.1,支持”改善 depth-wise 信息流有利于组合性任务”的假说
Table 4: 消融实验(16层模型)
| 变体 | Loss | 说明 |
|---|---|---|
| Baseline (PreNorm) | 1.766 | — |
| DenseFormer | 1.767 | 固定系数,无收益 |
| mHC | 1.747 | 并行流 |
| Full AttnRes | 1.737 | 最佳 |
| w/ input-dependent query | 1.731 | 更好但推理需序列访问 |
| w/ input-independent mixing | 1.749 | 去掉 q/k 退化 |
| w/ sigmoid | 1.741 | softmax 的竞争性归一化更优 |
| w/o RMSNorm | 1.743 | RMSNorm 防止大幅度层主导 |
| SWA () | 1.764 | 滑窗不如选择性远距离访问 |
| Block () | 1.746 | 实用最优 |
| w/ multihead () | 1.752 | 多头反而不如单头 |
| w/o RMSNorm (Block) | 1.750 | Block 下 RMSNorm 更关键 |
关键发现: (1) Softmax 优于 sigmoid(竞争性归一化更好);(2) 单头优于多头(最优 depth mixture 在通道间高度一致);(3) RMSNorm on keys 是关键组件,防止大幅度输出主导 attention
Table 5: 残差更新机制统一对比
| 方法 | 更新规则 | 权重类型 | 可访问的源 |
|---|---|---|---|
| Residual | Fixed | ||
| ReZero | Static | ||
| LayerScale | Static | ||
| Highway Network | Dynamic | ||
| DenseFormer | Static | ||
| mHC | 并行流 + 混合矩阵 | Dynamic | |
| AttnRes (Full) | Dynamic | ||
| AttnRes (Block) | Dynamic |
说明: AttnRes 是唯一同时满足 dynamic weight + cross-layer access + softmax attention 的方法。标准残差对应 depth-wise linear attention,AttnRes 对应 depth-wise softmax attention
实验
数据集
| 数据集 | 规模 | 特点 | 用途 |
|---|---|---|---|
| Kimi Linear 预训练数据 | 1.4T tokens | 与 Kimi Linear 相同 | 48B 模型预训练 |
| Scaling Law 数据 | 38.7B-119.0B tokens | 5 种 scale | Scaling law 验证 |
| 高质量数据 | ~400B tokens | mid-training 数据 | Annealing |
实现细节
架构: Kimi Linear 48B total / 3B activated(27 Transformer blocks,54 层)
Block 配置: 6 layers/block → 9 blocks + embedding = 10 depth-wise sources
优化器: Muon optimizer
学习率: WSD (Warmup-Stable-Decay) schedule
Batch Size: 8M tokens (global)
Context Length: 4096 → 32K(逐步扩展)
预训练: Phase 1: 1T tokens WSD → Phase 2: ~400B tokens mid-training (Moonlight recipe)
位置编码: KDA 用 RoPE,MLA 用 NoPE,context extension 无需 YaRN
可视化结果
Attention 权重热力图揭示了三种模式:局部性(对角线)、embedding persistence(第 0 列)、learned skip connections(off-diagonal concentrations)
Block 压缩保留了 Full AttnRes 的核心信息通路,起到隐式正则化作用
批判性思考
优点
理论优雅: 将残差连接与 RNN/attention 的时间-深度对偶关系形式化,用 structured matrix 统一现有方法
工程实用: Block AttnRes 每层仅增加 1 个 维向量和 1 个 RMSNorm,推理延迟开销 <2%
系统化消融: 每个设计选择(softmax vs sigmoid、单头 vs 多头、RMSNorm on keys)都有充分的消融支持
规模验证: 从 194M 到 48B 参数,scaling law 拟合到 1.4T token 预训练,验证充分
缓解 PreNorm dilution: 有界的输出幅度和均匀的梯度分布是实质性的训练稳定性改善
局限性
仅验证 MoE 架构: 所有实验基于 Kimi Linear (MoE+KDA+MLA),未验证 dense Transformer (GPT/LLaMA style)
推理仍有额外开销: 虽然 <2%,但在对延迟极度敏感的场景仍不可忽视
Input-dependent query 更好但被放弃: loss 1.731 vs 1.737,因推理需序列依赖而未采用,存在改进空间
Block 边界硬性固定: block 划分是静态等分,未探索自适应分组
缺乏长上下文评估: 论文未报告 NIAH 或 LongBench 等长上下文 benchmark
潜在改进方向
Linear attention variant: 用 depth-wise linear attention (如 GLA/RetNet style) 替代 full softmax,进一步降低开销
Adaptive blocking: 根据层间相似度动态决定 block 边界
与其他 normalization 结合: 探索 PostNorm / HybridNorm 下 AttnRes 的效果
Dense model 验证: 在 LLaMA-style dense Transformer 上验证通用性
Input-dependent query 的高效实现: 设计不需要序列依赖的 input-dependent query 方案
可复现性评估
- 代码开源 (GitHub)
- 预训练模型(未提供)
- 训练细节完整(超参数、schedule、数据量都有详细说明)
- 数据集可获取(Kimi 内部数据)
关联笔记
基于
残差连接: He et al. 2015,本文的改进目标
PreNorm: 导致 dilution 问题的 normalization 范式
Highway Network: element-wise gating 的先驱,AttnRes 从 gating 推广到 cross-layer attention
对比
DenseFormer: cross-layer access 但 input-independent 标量系数
mHC: 并行流 + learned mixing matrix,I/O 开销高
ReZero: 可学习标量但仅访问前一层
LayerScale: 可学习 element-wise 系数但仅访问前一层
方法相关
Softmax: AttnRes 的核心注意力归一化
RMSNorm: 防止大幅度层主导 attention 权重的关键组件
online softmax: two-phase 推理中合并 inter/intra-block 结果
pipeline parallelism: Block AttnRes 的工程动机
MoE: 实验采用的模型架构
Kimi Linear: 48B 实验的基础架构
硬件/数据相关
neural scaling law: 验证 AttnRes 在不同 compute budget 下的一致收益
速查卡片
Attention Residuals
- 核心: 用 depth-wise softmax attention 替代固定残差累加,让每层选择性聚合前序层输出
- 方法: 每层一个 维 pseudo-query → softmax over 前序层 → weighted sum;Block 变体分组压缩至
- 结果: 1.25x compute advantage,48B 模型 GPQA +7.5, Math +3.6, HumanEval +3.1
- 代码: https://github.com/MoonshotAI/Attention-Residuals
笔记创建时间: 2026-03-20