Anatomical Heterogeneity in Transformer Language Models
论文笔记:Anatomical Heterogeneity in Transformer Language Models
元信息
| 项目 | 内容 |
|---|---|
| 机构 | 未公开 |
| 日期 | March 2026 |
| 项目主页 | N/A |
| 对比基线 | Uniform Training (等预算训练) |
| 链接 | arXiv / Code |
一句话总结
揭示 Transformer 层间存在深刻的功能异质性,并据此提出 Growth Transformer Training,以差异化训练预算实现 4.7 倍验证损失降低
核心贡献
完整 30 层重要性图谱: 用 5 种诊断指标(消融、权重可预测性、Delta 振荡、操纵策略、恢复速度)绘制 SmolLM2-135M 的层级功能地图,揭示关键层与冗余层的 倍重要性差距
Anti-layer 现象发现: 发现 L14、L17 被扰动后性能反而提升,类似生物学中的”退化器官”
R²-Perplexity 悖论: 权重统计可预测性高()但功能不可替代,揭示 Softmax 的级联敏感性
Growth Transformer Training: 基于生物发育学类比的差异化训练策略,核心层满预算、冗余层低预算,同参数量下达到 4.7 倍更低的验证损失
问题背景
要解决的问题
当前 Transformer 训练协议对所有层施加统一的计算预算,未考虑层间功能差异
直觉上,不同层应承担不同角色(如输入解析、深度推理、输出准备),统一训练可能造成资源浪费
现有方法的局限
表征分析 工作(Tenney et al., Rogers et al.)已发现层级特化,但停留在表征层面,未深入到权重级别的重要性量化
LayerDrop 等 层剪枝 工作证明了部分层可移除,但缺乏跨多指标的全层重要性图谱
渐进式训练(如 Progressive Stacking)虽有层增长思路,但未回答”每层需要多少训练预算”
本文的动机
以生物发育学为类比:生物体不同器官在胚胎发育中按时序和优先级分化,关键器官优先发育
假设 Transformer 层也存在类似的功能层次,可据此设计非均匀训练策略
方法详解
分析框架
本文对 SmolLM2-135M(30 层、135M 参数、hidden dim 576、9 个 注意力头)进行系统性分析,每层包含 7 个权重矩阵:q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj。
基线 Perplexity = 22.60(10 条多样英文句子)。
诊断指标 1: 层重要性图谱(消融分析)
协议: 将目标层权重替换为相邻层平均值,测量 Perplexity 退化
消融公式:
退化度量:
分类阈值:
- Redundant:
- Minor:
- Important:
- Critical:
诊断指标 2: 权重可预测性
用 Ridge Regression 拟合层索引到权重的映射,特征包含多项式和三角函数:
对 Layer 2-29 进行预测,度量 和 余弦相似度
诊断指标 3: 权重结构分析(Delta 振荡)
计算相邻层权重差:
度量连续 Delta 的 Pearson 相关性:
发现所有 7 个权重矩阵的 Delta 相关性均约为 ,即权重在层空间中形成驻波模式
诊断指标 4: 权重操纵策略
测试 5 类操纵方法对模型性能的影响:
- Skip/Zero: 直接跳过/置零
- Clone: 克隆最近邻层
- Blend: 距离加权平均
- Low-rank SVD blend: SVD 低秩混合
- Scale: 缩放因子
诊断指标 5: 恢复速度
注入高斯噪声:
冻结其他层,用 AdamW()微调目标层
记录达到 、、 基线 PPL 所需步数
Growth Transformer Training(概念验证)
基于上述分析,设计12 层异构 Transformer(总参数 9.57M,与均匀基线相同):
Critical 层: FFN 乘数
Minor 层: FFN 乘数
Redundant 层: FFN 乘数
Anti-layer: 直接省略
采用六阶段发育式训练协议(模拟生物胚胎发育):
- Gastrulation(原肠胚形成): 仅训练核心层 L4, L5(30 epochs)
- Neurulation(神经管形成): 克隆核心层 → 输入解析层 L1, L2(20 epochs)
- Organogenesis(器官发生): 克隆核心层 → 输出层 L8, L9(20 epochs)
- Growth(生长): 克隆 → Minor 层 L7, L10(12 epochs)
- Connective(结缔组织): 克隆 + FFN 缩放 → Redundant 层(6 epochs)
- Maturation(成熟): 全层微调(15 epochs)
核心层累计约 95 个有效 epoch,冗余层仅约 21 个。
关键公式
公式1: 层消融替换
含义: 将目标层权重替换为相邻层的简单平均,测试该层的功能不可替代性
符号说明:
- : 第 层的权重矩阵
- : 相邻层权重
公式2: 退化度量
含义: 量化消融第 层后的相对性能退化百分比
符号说明:
- : 消融层 后的困惑度
- : 原始模型困惑度(22.60)
公式3: 权重预测特征
含义: 用多项式 + 三角函数特征从层索引预测权重,捕捉线性趋势和周期性模式
符号说明:
- : 层索引
- : 总层数
公式4: 权重 Delta 序列
含义: 相邻层权重差,用于分析权重在层空间中的变化模式
符号说明:
- : 第 层与第 层的权重差
公式5: Delta 相关性
含义: 连续 Delta 之间的 Pearson 相关性恒定约为 ,表明权重变化呈交替正负振荡——若 权重偏移方向为 ,则 偏移方向为
符号说明:
- : Pearson 相关系数
公式6: 注意力机制敏感性
含义: 注意力分数计算,本文揭示该机制对权重扰动极度敏感—— 或 矩阵 1% 的扰动即可完全改变注意力分布,解释了为何高 预测仍导致灾难性失败
符号说明:
- : Query 和 Key 矩阵
- : 注意力头维度
关键图表
Figure 1: Layer Importance Profile / 层重要性图谱

展示 SmolLM2-135M 全部 30 层的消融退化分布(对数尺度),基于论文 Table 1 和 Appendix B 数据绘制:
关键特征:
- 双侧锚点: L1-L2(左侧输入解析)、L24-L28(右侧输出处理)
- 中央核心: L8-L11 为最高峰,L11 退化 +63,419%,是模型的”大脑”
- 平坦结缔组织: L3-L7、L12-L22 退化较低
- Anti-layer 谷底: L14、L17 退化为负值(消融后性能提升)
Table 1: 30-Layer Importance Profile / 完整 30 层重要性图谱
| Layer | Degradation (%) | Category | Functional Role |
|---|---|---|---|
| L0 | 0.0 | Redundant | Embedding 边界 |
| L1 | +2,737.1 | Critical | 输入解析器 |
| L2 | +186.0 | Critical | 输入解析器 |
| L3 | +13.4 | Redundant | 填充层 |
| L4 | +22.7 | Minor | 特征提取 |
| L5 | +8.3 | Redundant | 填充层 |
| L6 | +9.4 | Redundant | 填充层 |
| L7 | +20.3 | Minor | 特征提取 |
| L8 | +2,395.6 | Critical | 核心推理 |
| L9 | +378.1 | Critical | 核心推理 |
| L10 | +9,870.7 | Critical | 深度推理 |
| L11 | +63,419.2 | Critical | 模型”大脑” |
| L12 | +6.3 | Redundant | 填充层 |
| L13 | +24.4 | Minor | 细化 |
| L14 | +5.0 | Redundant | Anti-layer |
| L15 | +11.1 | Minor | 细化 |
| L16 | +20.3 | Minor | 细化 |
| L17 | −0.6 | Redundant | Anti-layer |
| L18 | +16.9 | Minor | 细化 |
| L19 | +2.6 | Redundant | 填充层 |
| L20 | +25.9 | Minor | 细化 |
| L21 | +23.5 | Minor | 细化 |
| L22 | +27.8 | Minor | 细化 |
| L23 | +66.6 | Important | 输出准备 |
| L24 | +115.2 | Critical | 输出核心 |
| L25 | +23.2 | Minor | 输出细化 |
| L26 | +19.4 | Minor | 输出细化 |
| L27 | +134.8 | Critical | 输出格式化 |
| L28 | +211.5 | Critical | 输出最终层 |
| L29 | 0.0 | Redundant | LN head 边界 |
表格说明: 退化范围跨越 (从 −0.6% 到 +63,419%)。分布为:Redundant 10 层(33%)、Minor 11 层(37%)、Important 1 层(3%)、Critical 8 层(27%)。L11 的重要性约为 L17 的 倍。
Table 2: Weight Predictability / 权重可预测性
| Component | Avg R² | Best R² | 解释 |
|---|---|---|---|
| mlp.gate_proj | 0.909 | 0.993 | 高度可预测 |
| mlp.down_proj | 0.895 | 0.995 | 高度可预测 |
| self_attn.q_proj | 0.824 | 0.989 | 高度可预测 |
| self_attn.k_proj | 0.745 | 0.978 | 可预测 |
| mlp.up_proj | 0.716 | 0.985 | 可预测 |
| self_attn.o_proj | 0.079 | 0.941 | 弱可预测 |
| self_attn.v_proj | −0.655 | 0.977 | 不稳定 |
表格说明: MLP 权重高度可预测(),但 v_proj 预测不稳定。关键发现是高 不意味着功能可替换——替换 1 层 PPL 仅升至 26.22 (+16%),替换 9+ 层则 PPL > 100,000。
Table 3: Delta Correlation / 层间 Delta 相关性
| Component | Avg delta correlation | Pattern |
|---|---|---|
| mlp.down_proj | −0.500 | 振荡 |
| mlp.gate_proj | −0.500 | 振荡 |
| mlp.up_proj | −0.500 | 振荡 |
| self_attn.k_proj | −0.497 | 振荡 |
| self_attn.o_proj | −0.505 | 振荡 |
| self_attn.q_proj | −0.499 | 振荡 |
| self_attn.v_proj | −0.505 | 振荡 |
表格说明: 所有 7 个组件的 Delta 相关性一致约为 ,表明残差连接创造了一种自然的振荡补偿:权重在层空间中形成驻波。
Table 4: Weight Manipulation / 权重操纵策略
| Strategy | PPL | Degradation |
|---|---|---|
| Baseline (original) | 22.60 | 0% |
| Scale ×0.9 | 26.95 | +19% |
| Scale ×0.7 | 928.22 | +5,035% |
| Blend (1/distance, 2 layers) | 31,333 | +173,242% |
| Scale ×0.5 | 86,505 | +478,462% |
| Skip/Zero (2 layers) | 969,198 | +5,361,714% |
| Clone neighbor (2 layers) | 545,654 | +3,018,579% |
| Low-rank blend (2 layers) | 891,155 | +4,929,963% |
| Scale ×0.0 (full removal) | 15,509,465 | +85,800,000% |
表格说明: 仅 Scale ×0.9 保持可用(+19%),其余策略均导致灾难性失败。说明冗余层虽然单独看不重要,但其方向性和近似幅度必须保留。
Table 5: Recovery Speed / 恢复速度
| Layer | Category | PPL+noise | <2× steps | <1.5× steps | <1.1× steps | Final PPL |
|---|---|---|---|---|---|---|
| L14 | Redundant | 19.4 | 0 | 0 | 0 | 18.2 ↓ |
| L17 | Redundant | 18.5 | 0 | 0 | 0 | 17.6 ↓ |
| L5 | Redundant | 21.2 | 0 | 0 | 10 | 19.6 |
| L23 | Important | 26.5 | 0 | 0 | 150 | 19.7 |
| L24 | Critical | 26.8 | 0 | 0 | 110 | 19.6 |
| L3 | Redundant | 27.3 | 0 | 10 | 200 | 27.3 (未收敛) |
| L27 | Critical | 27.7 | 0 | 10 | 130 | 19.8 |
| L0 | Redundant | 38.6 | 10 | 30 | 200 | 28.7 |
| L8 | Critical | 58.4 | 10 | 30 | 200 | 35.6 |
| L1 | Critical | 54.7 | 20 | 200 | 200 | 49.3 |
| L10 | Critical | 58.7 | 20 | 200 | 200 | 42.2 |
| L11 | Critical | 4,323.4 | 200 | 200 | 200 | 175.9 (7.8×) |
| L29 | Redundant | 1,289.2 | 200 | 200 | 200 | 41.5 |
表格说明: L14/L17(Anti-layer)注入噪声后性能反而改善(PPL 从 22.60 降至 18.2/17.6)。L11 恢复最困难——200 步后仍为基线的 7.8 倍。恢复速度与层重要性高度相关,可作为训练预算分配的代理指标。
Table 6: Growth Transformer Architecture / 异构架构
| Layer | Role | FFN mult. | Params |
|---|---|---|---|
| L0 | redundant | ×1 | 459,264 |
| L1 | critical | ×4 | 1,049,088 |
| L2 | critical | ×4 | 1,049,088 |
| L3 | redundant | ×1 | 459,264 |
| L4 | critical | ×4 | 1,049,088 |
| L5 | critical | ×4 | 1,049,088 |
| L6 | redundant | ×1 | 459,264 |
| L7 | minor | ×2 | 655,872 |
| L8 | critical | ×4 | 1,049,088 |
| L9 | critical | ×4 | 1,049,088 |
| L10 | minor | ×2 | 655,872 |
| L11 | redundant | ×1 | 459,264 |
| Total | 9,570,048 |
表格说明: 12 层异构架构,关键层使用 4 倍 FFN 宽度,总参数量与 12 层均匀架构相同。Anti-layer 被直接省略。
Table 7: Developmental Training Protocol / 发育式训练协议
| Phase | Name | Layers trained | Epochs |
|---|---|---|---|
| 1 | Gastrulation | Core (L4, L5) | 30 |
| 2 | Neurulation | Parser (L1, L2); clone L4→L1, L5→L2 | 20 |
| 3 | Organogenesis | Output (L8, L9); clone L4→L8, L5→L9 | 20 |
| 4 | Growth | Minor (L7, L10); clone L5→L7, L9→L10 | 12 |
| 5 | Connective | Redundant (L0,L3,L6,L11); clone + scale FFN×0.5 | 6 |
| 6 | Maturation | All layers (fine-tune) | 15 |
表格说明: 核心层累计约 95 个有效 epoch(Phase 1-6),冗余层仅约 21 个有效 epoch(Phase 5-6),训练预算差异约 4.5 倍。
Table 8: Growth Training Results / 训练结果对比
| Configuration | Steps | Val loss | Time | vs. Uniform 100% |
|---|---|---|---|---|
| Uniform 100% | 656 | 0.599 | 59.6s | baseline |
| Growth 50% | 416 | 0.279 | – | 2.1× better, 37% fewer steps |
| Growth 100% | 656 | 0.127 | 52.0s | 4.7× better, 13% faster |
表格说明: 核心结果。Growth 100% 在相同步数和参数预算下实现 4.7 倍更低的验证损失,同时训练速度提升 13%。即使只用 50% 的步数,Growth 也已超越均匀训练。
Table 9: Generation Quality / 生成质量对比
| Prompt | Growth 100% | Uniform 100% |
|---|---|---|
| the capital of france is | paris | paris. on. |
| cats are | popular pets around the world | popular pets around the world |
| python is a | popular programming language | popular programming language |
| the earth orbits | around the sun every year | around the sun every year |
| water boils at | one hundred degrees celsius | one hundred degrees celsius |
| artificial intelligence | is transforming the way we live | can learn from data |
| mathematics is | the language of science | the language of science |
| dogs are loyal | and faithful friends | and faithful friends |
| the sun is | a star at the center of our solar system | a star at the center of our solar system |
| the brain contains | about one hundred billion neurons | about one hundred billion neurons |
| music is a | universal form of expression | universal form of expression |
| hello how are | you today | you today. with neurons |
表格说明: Growth 100% 在全部 12 个测试 prompt 上生成连贯文本;Uniform 在 2 个 edge case 出现伪影(“paris. on.” 和 “you today. with neurons”)。
Table 10: Proposed Training Budget / 训练预算分配方案
| Layer Group | Layers | Budget ratio R(l) | Justification |
|---|---|---|---|
| Anti-layers | L14, L17 | 0.00 | 剪除/随机化;有害性能 |
| Instant-recovery redundant | L3, L5, L6, L12, L19 | 0.00–0.05 | 0–10 步收敛 |
| Minor layers | L4, L7, L13, L15–16, L18, L20–22, L25–26 | 0.30–0.50 | 增量细化 |
| Critical output | L23–24, L27–28 | 0.80–1.00 | 关键但恢复快 |
| Critical core + input | L1–2, L8–11 | 1.00 | 满预算;恢复慢/不可能 |
| Boundary layers | L0, L29 | 0.15–0.20 | 异常恢复模式 |
表格说明: 假设均匀训练每层 200 步(总计 6,000 步),Growth Training 总步数约 2,760——节省约 54%。
实验结果
Growth Training 核心结果

主要发现:
Growth 100% 在相同步数(656 步)和参数预算(9.57M)下,验证损失从 0.599 降至 0.127,实现 4.7 倍的改善
即使仅使用 50% 步数(416 步),Growth Training 已超越均匀训练(0.279 vs 0.599)
训练时间从 59.6s 降至 52.0s,节省 13%
12 个测试 prompt 上 Growth 100% 全部生成连贯文本,Uniform 在 2 个 edge case 出现伪影
层异质性分析结果
重要性跨度: 层间功能重要性差距达 倍(L11 退化 +63,419% vs L17 退化 −0.6%)
Anti-layer 现象: L14/L17 被扰动后性能反而提升——注入噪声后 PPL 从 22.60 降至 18.2/17.6
权重可预测性: MLP 权重高度可预测(),但高 不意味着功能可替换(R²-Perplexity 悖论)
振荡模式: 所有 7 个权重组件的 Delta 相关性一致约为 ,形成层空间驻波
恢复速度: L11 最难恢复(200 步后仍为基线的 7.8 倍),与层重要性高度相关
训练预算估算: 基于差异化分配,预计可节省约 54% 训练成本
实验设置
数据集
| 数据集 | 规模 | 特点 | 用途 |
|---|---|---|---|
| 10 条英文句子 | 极小 | 多样化、覆盖不同语境 | 消融/诊断评估 |
| 自定义训练集 | 小规模 | 用于 PoC 验证 | Growth Training |
实现细节
模型: SmolLM2-135M(30 层、135M 参数、hidden dim 576、9 头)
优化器: AdamW()
噪声注入:
恢复实验: 冻结除目标层外所有层,最多 200 步
PoC 模型: 12 层异构 Transformer,9.57M 参数
硬件: NVIDIA T4 16GB (Kaggle Notebooks)
运行时间: ~45 分钟 (GPU),~3 小时 (CPU)
可视化结果
层重要性呈双峰分布:中央核心 L8-L11 和输入/输出锚点 L1-L2/L24-L28 构成关键结构
权重 Delta 振荡模式在所有组件中高度一致(),形成驻波
Anti-layer 的”负退化”现象在消融和噪声注入中交叉验证
批判性思考
优点
系统性分析框架: 5 种互补指标提供层重要性的多维度视图,单一指标的偏差被交叉验证弥补
生物学类比新颖且有启发性: 将层功能映射到器官系统(brainstem、cortex、connective tissue),为理解和设计 Transformer 提供新视角
发现具有实际价值: Anti-layer 现象、R²-Perplexity 悖论、振荡模式都是新颖且有实际意义的发现
PoC 直接验证: Growth Training 不仅是理论分析,还通过实验证明了 4.7 倍的性能提升
可复现性高: 使用公开模型、Kaggle 环境、完整超参数
局限性
单模型分析: 仅分析 SmolLM2-135M(135M),未验证大模型(如 7B+)是否存在相同模式
评估规模极小: 仅 10 条句子的 Perplexity,冗余层在更复杂任务上可能重要
训练后分析: 分析的是已训练完成的模型,层级特化在训练过程中如何涌现仍是未知
PoC 规模有限: 9.57M 参数的验证距离生产级规模还有很大距离
Anti-layer 泛化性未知: L14/L17 的”退化器官”特性是否跨架构/跨规模存在需要进一步验证
潜在改进方向
多模型验证: 在 LLaMA-7B/13B、Mistral 等主流模型上复现分析
训练动态研究: 追踪层重要性在训练过程中的演化
自适应训练预算: 动态调整每层训练预算(而非预定义固定方案)
更大规模 Growth Training: 在 100M+ 参数模型上验证效果
与现有方法结合: 将 Growth Training 与 渐进式堆叠、知识蒸馏、层剪枝 结合
可复现性评估
- 代码开源(https://github.com/tomaszwi66)
- 预训练模型(使用公开的 SmolLM2-135M)
- 训练细节完整
- 数据集可获取(使用公开模型 + 标准评估)
关联笔记
基于
progressive training: Growth Training 的核心思想——渐进式训练,但本文从层重要性分析出发确定差异化预算
LayerDrop: Fan et al. 2020 证明了层可删除性,本文进一步量化全层重要性
对比
ShortGPT: 同为层重要性分析和层剪枝,但 ShortGPT 关注推理效率,本文关注训练效率
Block Influence: 基于隐藏状态余弦相似度的层重要性度量,本文采用更全面的多指标方案
方法相关
Perplexity: 核心评估指标
Ridge Regression: 权重可预测性分析工具
SVD: Low-rank blend 操纵策略
AdamW: 恢复速度实验的优化器
Softmax: R²-Perplexity 悖论的核心解释——级联敏感性
残差连接: 振荡模式的结构性解释
Multi-Head Attention: 模型核心组件,9 头注意力
硬件/数据相关
NVIDIA T4 16GB (Kaggle Notebooks)
速查卡片
Anatomical Heterogeneity in Transformer Language Models
- 核心: Transformer 层间存在 倍的功能异质性,可据此差异化分配训练预算
- 方法: 5 种诊断指标绘制层重要性图谱 + 生物发育式 6 阶段 Growth Training
- 结果: 同参数量下验证损失降低 4.7 倍,训练成本节省约 54%
- 代码: https://github.com/tomaszwi66
笔记创建时间: 2026-03-24