Anatomical Heterogeneity in Transformer Language Models

作者: Tomasz Wietrzykowski 年份: 2026 会议: arXiv 分类: 模型增长

论文笔记:Anatomical Heterogeneity in Transformer Language Models

元信息

项目内容
机构未公开
日期March 2026
项目主页N/A
对比基线Uniform Training (等预算训练)
链接arXiv / Code

一句话总结

揭示 Transformer 层间存在深刻的功能异质性,并据此提出 Growth Transformer Training,以差异化训练预算实现 4.7 倍验证损失降低

核心贡献

完整 30 层重要性图谱: 用 5 种诊断指标(消融、权重可预测性、Delta 振荡、操纵策略、恢复速度)绘制 SmolLM2-135M 的层级功能地图,揭示关键层与冗余层的 10710^7 倍重要性差距

Anti-layer 现象发现: 发现 L14、L17 被扰动后性能反而提升,类似生物学中的”退化器官”

R²-Perplexity 悖论: 权重统计可预测性高(R2=0.91R^2 = 0.91)但功能不可替代,揭示 Softmax 的级联敏感性

Growth Transformer Training: 基于生物发育学类比的差异化训练策略,核心层满预算、冗余层低预算,同参数量下达到 4.7 倍更低的验证损失

问题背景

要解决的问题

当前 Transformer 训练协议对所有层施加统一的计算预算,未考虑层间功能差异

直觉上,不同层应承担不同角色(如输入解析、深度推理、输出准备),统一训练可能造成资源浪费

现有方法的局限

表征分析 工作(Tenney et al., Rogers et al.)已发现层级特化,但停留在表征层面,未深入到权重级别的重要性量化

LayerDrop层剪枝 工作证明了部分层可移除,但缺乏跨多指标的全层重要性图谱

渐进式训练(如 Progressive Stacking)虽有层增长思路,但未回答”每层需要多少训练预算”

本文的动机

生物发育学为类比:生物体不同器官在胚胎发育中按时序和优先级分化,关键器官优先发育

假设 Transformer 层也存在类似的功能层次,可据此设计非均匀训练策略

方法详解

分析框架

本文对 SmolLM2-135M(30 层、135M 参数、hidden dim 576、9 个 注意力头)进行系统性分析,每层包含 7 个权重矩阵:q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj

基线 Perplexity = 22.60(10 条多样英文句子)。

诊断指标 1: 层重要性图谱(消融分析)

协议: 将目标层权重替换为相邻层平均值,测量 Perplexity 退化

消融公式:

WlWl1+Wl+12W_l \leftarrow \frac{W_{l-1} + W_{l+1}}{2}

退化度量:

Dl=(PPLlPPLbaseline1)×100%D_l = \left(\frac{\text{PPL}_l}{\text{PPL}_{\text{baseline}}} - 1\right) \times 100\%

分类阈值:

  • Redundant: D<10%D < 10\%
  • Minor: 10%D<30%10\% \leq D < 30\%
  • Important: 30%D<100%30\% \leq D < 100\%
  • Critical: D100%D \geq 100\%

诊断指标 2: 权重可预测性

Ridge Regression 拟合层索引到权重的映射,特征包含多项式和三角函数:

X=[l,  l2,  sin(lπ/N),  cos(lπ/N)]X = [l, \; l^2, \; \sin(l\pi / N), \; \cos(l\pi / N)]

对 Layer 2-29 进行预测,度量 R2R^2余弦相似度

诊断指标 3: 权重结构分析(Delta 振荡)

计算相邻层权重差:

Δl=Wl+1Wl\Delta_l = W_{l+1} - W_l

度量连续 Delta 的 Pearson 相关性:

ρ(Δl,Δl+1)0.50\rho(\Delta_l, \Delta_{l+1}) \approx -0.50

发现所有 7 个权重矩阵的 Delta 相关性均约为 0.50-0.50,即权重在层空间中形成驻波模式

诊断指标 4: 权重操纵策略

测试 5 类操纵方法对模型性能的影响:

  1. Skip/Zero: 直接跳过/置零
  2. Clone: 克隆最近邻层
  3. Blend: 距离加权平均
  4. Low-rank SVD blend: SVD 低秩混合
  5. Scale: 缩放因子 α{0.0,0.1,0.3,0.5,0.7,0.9}\alpha \in \{0.0, 0.1, 0.3, 0.5, 0.7, 0.9\}

诊断指标 5: 恢复速度

注入高斯噪声: σ=0.5×std(Wl)\sigma = 0.5 \times \text{std}(W_l)

冻结其他层,用 AdamWlr=104\text{lr} = 10^{-4})微调目标层

记录达到 <2×< 2\times<1.5×< 1.5\times<1.1×< 1.1\times 基线 PPL 所需步数

Growth Transformer Training(概念验证)

基于上述分析,设计12 层异构 Transformer(总参数 9.57M,与均匀基线相同):

Critical 层: FFN 乘数 ×4\times 4

Minor 层: FFN 乘数 ×2\times 2

Redundant 层: FFN 乘数 ×1\times 1

Anti-layer: 直接省略

采用六阶段发育式训练协议(模拟生物胚胎发育):

  1. Gastrulation(原肠胚形成): 仅训练核心层 L4, L5(30 epochs)
  2. Neurulation(神经管形成): 克隆核心层 → 输入解析层 L1, L2(20 epochs)
  3. Organogenesis(器官发生): 克隆核心层 → 输出层 L8, L9(20 epochs)
  4. Growth(生长): 克隆 → Minor 层 L7, L10(12 epochs)
  5. Connective(结缔组织): 克隆 + FFN 缩放 ×0.5\times 0.5 → Redundant 层(6 epochs)
  6. Maturation(成熟): 全层微调(15 epochs)

核心层累计约 95 个有效 epoch,冗余层仅约 21 个。

关键公式

公式1: 层消融替换

WlWl1+Wl+12W_l \leftarrow \frac{W_{l-1} + W_{l+1}}{2}

含义: 将目标层权重替换为相邻层的简单平均,测试该层的功能不可替代性

符号说明:

  • WlW_l: 第 ll 层的权重矩阵
  • Wl1,Wl+1W_{l-1}, W_{l+1}: 相邻层权重

公式2: 退化度量

Dl=(PPLlPPLbaseline1)×100%D_l = \left(\frac{\text{PPL}_l}{\text{PPL}_{\text{baseline}}} - 1\right) \times 100\%

含义: 量化消融第 ll 层后的相对性能退化百分比

符号说明:

  • PPLl\text{PPL}_l: 消融层 ll 后的困惑度
  • PPLbaseline\text{PPL}_{\text{baseline}}: 原始模型困惑度(22.60)

公式3: 权重预测特征

X=[l,  l2,  sin(lπ/N),  cos(lπ/N)]X = [l, \; l^2, \; \sin(l\pi / N), \; \cos(l\pi / N)]

含义: 用多项式 + 三角函数特征从层索引预测权重,捕捉线性趋势和周期性模式

符号说明:

  • ll: 层索引
  • NN: 总层数

公式4: 权重 Delta 序列

Δl=Wl+1Wl\Delta_l = W_{l+1} - W_l

含义: 相邻层权重差,用于分析权重在层空间中的变化模式

符号说明:

  • Δl\Delta_l: 第 ll 层与第 l+1l+1 层的权重差

公式5: Delta 相关性

ρ(Δl,Δl+1)0.50\rho(\Delta_l, \Delta_{l+1}) \approx -0.50

含义: 连续 Delta 之间的 Pearson 相关性恒定约为 0.50-0.50,表明权重变化呈交替正负振荡——若 ll+1l \to l+1 权重偏移方向为 +A+A,则 l+1l+2l+1 \to l+2 偏移方向为 A-A

符号说明:

  • ρ\rho: Pearson 相关系数

公式6: 注意力机制敏感性

softmax(QKd)\text{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right)

含义: 注意力分数计算,本文揭示该机制对权重扰动极度敏感——QQKK 矩阵 1% 的扰动即可完全改变注意力分布,解释了为何高 R2R^2 预测仍导致灾难性失败

符号说明:

  • Q,KQ, K: Query 和 Key 矩阵
  • dd: 注意力头维度

关键图表

Figure 1: Layer Importance Profile / 层重要性图谱

![Layer Importance Profile](../assets/论文笔记___2-模型增长___Anatomical Heterogeneity_fig1.png)

展示 SmolLM2-135M 全部 30 层的消融退化分布(对数尺度),基于论文 Table 1 和 Appendix B 数据绘制:

关键特征:

  • 双侧锚点: L1-L2(左侧输入解析)、L24-L28(右侧输出处理)
  • 中央核心: L8-L11 为最高峰,L11 退化 +63,419%,是模型的”大脑”
  • 平坦结缔组织: L3-L7、L12-L22 退化较低
  • Anti-layer 谷底: L14、L17 退化为负值(消融后性能提升)

Table 1: 30-Layer Importance Profile / 完整 30 层重要性图谱

LayerDegradation (%)CategoryFunctional Role
L00.0RedundantEmbedding 边界
L1+2,737.1Critical输入解析器
L2+186.0Critical输入解析器
L3+13.4Redundant填充层
L4+22.7Minor特征提取
L5+8.3Redundant填充层
L6+9.4Redundant填充层
L7+20.3Minor特征提取
L8+2,395.6Critical核心推理
L9+378.1Critical核心推理
L10+9,870.7Critical深度推理
L11+63,419.2Critical模型”大脑”
L12+6.3Redundant填充层
L13+24.4Minor细化
L14+5.0RedundantAnti-layer
L15+11.1Minor细化
L16+20.3Minor细化
L17−0.6RedundantAnti-layer
L18+16.9Minor细化
L19+2.6Redundant填充层
L20+25.9Minor细化
L21+23.5Minor细化
L22+27.8Minor细化
L23+66.6Important输出准备
L24+115.2Critical输出核心
L25+23.2Minor输出细化
L26+19.4Minor输出细化
L27+134.8Critical输出格式化
L28+211.5Critical输出最终层
L290.0RedundantLN head 边界

表格说明: 退化范围跨越 10710^7(从 −0.6% 到 +63,419%)。分布为:Redundant 10 层(33%)、Minor 11 层(37%)、Important 1 层(3%)、Critical 8 层(27%)。L11 的重要性约为 L17 的 10610^6 倍。

Table 2: Weight Predictability / 权重可预测性

ComponentAvg R²Best R²解释
mlp.gate_proj0.9090.993高度可预测
mlp.down_proj0.8950.995高度可预测
self_attn.q_proj0.8240.989高度可预测
self_attn.k_proj0.7450.978可预测
mlp.up_proj0.7160.985可预测
self_attn.o_proj0.0790.941弱可预测
self_attn.v_proj−0.6550.977不稳定

表格说明: MLP 权重高度可预测(R2>0.7R^2 > 0.7),但 v_proj 预测不稳定。关键发现是R2R^2 不意味着功能可替换——替换 1 层 PPL 仅升至 26.22 (+16%),替换 9+ 层则 PPL > 100,000。

Table 3: Delta Correlation / 层间 Delta 相关性

ComponentAvg delta correlationPattern
mlp.down_proj−0.500振荡
mlp.gate_proj−0.500振荡
mlp.up_proj−0.500振荡
self_attn.k_proj−0.497振荡
self_attn.o_proj−0.505振荡
self_attn.q_proj−0.499振荡
self_attn.v_proj−0.505振荡

表格说明: 所有 7 个组件的 Delta 相关性一致约为 0.50-0.50,表明残差连接创造了一种自然的振荡补偿:权重在层空间中形成驻波

Table 4: Weight Manipulation / 权重操纵策略

StrategyPPLDegradation
Baseline (original)22.600%
Scale ×0.926.95+19%
Scale ×0.7928.22+5,035%
Blend (1/distance, 2 layers)31,333+173,242%
Scale ×0.586,505+478,462%
Skip/Zero (2 layers)969,198+5,361,714%
Clone neighbor (2 layers)545,654+3,018,579%
Low-rank blend (2 layers)891,155+4,929,963%
Scale ×0.0 (full removal)15,509,465+85,800,000%

表格说明: 仅 Scale ×0.9 保持可用(+19%),其余策略均导致灾难性失败。说明冗余层虽然单独看不重要,但其方向性和近似幅度必须保留。

Table 5: Recovery Speed / 恢复速度

LayerCategoryPPL+noise<2× steps<1.5× steps<1.1× stepsFinal PPL
L14Redundant19.400018.2 ↓
L17Redundant18.500017.6 ↓
L5Redundant21.2001019.6
L23Important26.50015019.7
L24Critical26.80011019.6
L3Redundant27.301020027.3 (未收敛)
L27Critical27.701013019.8
L0Redundant38.6103020028.7
L8Critical58.4103020035.6
L1Critical54.72020020049.3
L10Critical58.72020020042.2
L11Critical4,323.4200200200175.9 (7.8×)
L29Redundant1,289.220020020041.5

表格说明: L14/L17(Anti-layer)注入噪声后性能反而改善(PPL 从 22.60 降至 18.2/17.6)。L11 恢复最困难——200 步后仍为基线的 7.8 倍。恢复速度与层重要性高度相关,可作为训练预算分配的代理指标。

Table 6: Growth Transformer Architecture / 异构架构

LayerRoleFFN mult.Params
L0redundant×1459,264
L1critical×41,049,088
L2critical×41,049,088
L3redundant×1459,264
L4critical×41,049,088
L5critical×41,049,088
L6redundant×1459,264
L7minor×2655,872
L8critical×41,049,088
L9critical×41,049,088
L10minor×2655,872
L11redundant×1459,264
Total9,570,048

表格说明: 12 层异构架构,关键层使用 4 倍 FFN 宽度,总参数量与 12 层均匀架构相同。Anti-layer 被直接省略。

Table 7: Developmental Training Protocol / 发育式训练协议

PhaseNameLayers trainedEpochs
1GastrulationCore (L4, L5)30
2NeurulationParser (L1, L2); clone L4→L1, L5→L220
3OrganogenesisOutput (L8, L9); clone L4→L8, L5→L920
4GrowthMinor (L7, L10); clone L5→L7, L9→L1012
5ConnectiveRedundant (L0,L3,L6,L11); clone + scale FFN×0.56
6MaturationAll layers (fine-tune)15

表格说明: 核心层累计约 95 个有效 epoch(Phase 1-6),冗余层仅约 21 个有效 epoch(Phase 5-6),训练预算差异约 4.5 倍。

Table 8: Growth Training Results / 训练结果对比

ConfigurationStepsVal lossTimevs. Uniform 100%
Uniform 100%6560.59959.6sbaseline
Growth 50%4160.2792.1× better, 37% fewer steps
Growth 100%6560.12752.0s4.7× better, 13% faster

表格说明: 核心结果。Growth 100% 在相同步数和参数预算下实现 4.7 倍更低的验证损失,同时训练速度提升 13%。即使只用 50% 的步数,Growth 也已超越均匀训练。

Table 9: Generation Quality / 生成质量对比

PromptGrowth 100%Uniform 100%
the capital of france isparisparis. on.
cats arepopular pets around the worldpopular pets around the world
python is apopular programming languagepopular programming language
the earth orbitsaround the sun every yeararound the sun every year
water boils atone hundred degrees celsiusone hundred degrees celsius
artificial intelligenceis transforming the way we livecan learn from data
mathematics isthe language of sciencethe language of science
dogs are loyaland faithful friendsand faithful friends
the sun isa star at the center of our solar systema star at the center of our solar system
the brain containsabout one hundred billion neuronsabout one hundred billion neurons
music is auniversal form of expressionuniversal form of expression
hello how areyou todayyou today. with neurons

表格说明: Growth 100% 在全部 12 个测试 prompt 上生成连贯文本;Uniform 在 2 个 edge case 出现伪影(“paris. on.” 和 “you today. with neurons”)。

Table 10: Proposed Training Budget / 训练预算分配方案

Layer GroupLayersBudget ratio R(l)Justification
Anti-layersL14, L170.00剪除/随机化;有害性能
Instant-recovery redundantL3, L5, L6, L12, L190.00–0.050–10 步收敛
Minor layersL4, L7, L13, L15–16, L18, L20–22, L25–260.30–0.50增量细化
Critical outputL23–24, L27–280.80–1.00关键但恢复快
Critical core + inputL1–2, L8–111.00满预算;恢复慢/不可能
Boundary layersL0, L290.15–0.20异常恢复模式

表格说明: 假设均匀训练每层 200 步(总计 6,000 步),Growth Training 总步数约 2,760——节省约 54%

实验结果

Growth Training 核心结果

![Growth Training vs Uniform](../assets/论文笔记___2-模型增长___Anatomical Heterogeneity_fig2.png)

主要发现:

Growth 100% 在相同步数(656 步)和参数预算(9.57M)下,验证损失从 0.599 降至 0.127,实现 4.7 倍的改善

即使仅使用 50% 步数(416 步),Growth Training 已超越均匀训练(0.279 vs 0.599)

训练时间从 59.6s 降至 52.0s,节省 13%

12 个测试 prompt 上 Growth 100% 全部生成连贯文本,Uniform 在 2 个 edge case 出现伪影

层异质性分析结果

重要性跨度: 层间功能重要性差距达 10710^7 倍(L11 退化 +63,419% vs L17 退化 −0.6%)

Anti-layer 现象: L14/L17 被扰动后性能反而提升——注入噪声后 PPL 从 22.60 降至 18.2/17.6

权重可预测性: MLP 权重高度可预测(R2>0.7R^2 > 0.7),但高 R2R^2 不意味着功能可替换(R²-Perplexity 悖论)

振荡模式: 所有 7 个权重组件的 Delta 相关性一致约为 ρ0.50\rho \approx -0.50,形成层空间驻波

恢复速度: L11 最难恢复(200 步后仍为基线的 7.8 倍),与层重要性高度相关

训练预算估算: 基于差异化分配,预计可节省约 54% 训练成本

实验设置

数据集

数据集规模特点用途
10 条英文句子极小多样化、覆盖不同语境消融/诊断评估
自定义训练集小规模用于 PoC 验证Growth Training

实现细节

模型: SmolLM2-135M(30 层、135M 参数、hidden dim 576、9 头)

优化器: AdamWlr=104\text{lr} = 10^{-4}

噪声注入: σ=0.5×std(Wl)\sigma = 0.5 \times \text{std}(W_l)

恢复实验: 冻结除目标层外所有层,最多 200 步

PoC 模型: 12 层异构 Transformer,9.57M 参数

硬件: NVIDIA T4 16GB (Kaggle Notebooks)

运行时间: ~45 分钟 (GPU),~3 小时 (CPU)

可视化结果

层重要性呈双峰分布:中央核心 L8-L11 和输入/输出锚点 L1-L2/L24-L28 构成关键结构

权重 Delta 振荡模式在所有组件中高度一致ρ0.50\rho \approx -0.50),形成驻波

Anti-layer 的”负退化”现象在消融和噪声注入中交叉验证

批判性思考

优点

系统性分析框架: 5 种互补指标提供层重要性的多维度视图,单一指标的偏差被交叉验证弥补

生物学类比新颖且有启发性: 将层功能映射到器官系统(brainstem、cortex、connective tissue),为理解和设计 Transformer 提供新视角

发现具有实际价值: Anti-layer 现象、R²-Perplexity 悖论、振荡模式都是新颖且有实际意义的发现

PoC 直接验证: Growth Training 不仅是理论分析,还通过实验证明了 4.7 倍的性能提升

可复现性高: 使用公开模型、Kaggle 环境、完整超参数

局限性

单模型分析: 仅分析 SmolLM2-135M(135M),未验证大模型(如 7B+)是否存在相同模式

评估规模极小: 仅 10 条句子的 Perplexity,冗余层在更复杂任务上可能重要

训练后分析: 分析的是已训练完成的模型,层级特化在训练过程中如何涌现仍是未知

PoC 规模有限: 9.57M 参数的验证距离生产级规模还有很大距离

Anti-layer 泛化性未知: L14/L17 的”退化器官”特性是否跨架构/跨规模存在需要进一步验证

潜在改进方向

多模型验证: 在 LLaMA-7B/13B、Mistral 等主流模型上复现分析

训练动态研究: 追踪层重要性在训练过程中的演化

自适应训练预算: 动态调整每层训练预算(而非预定义固定方案)

更大规模 Growth Training: 在 100M+ 参数模型上验证效果

与现有方法结合: 将 Growth Training 与 渐进式堆叠知识蒸馏层剪枝 结合

可复现性评估

  • 代码开源(https://github.com/tomaszwi66)
  • 预训练模型(使用公开的 SmolLM2-135M)
  • 训练细节完整
  • 数据集可获取(使用公开模型 + 标准评估)

关联笔记

基于

progressive training: Growth Training 的核心思想——渐进式训练,但本文从层重要性分析出发确定差异化预算

LayerDrop: Fan et al. 2020 证明了层可删除性,本文进一步量化全层重要性

对比

ShortGPT: 同为层重要性分析和层剪枝,但 ShortGPT 关注推理效率,本文关注训练效率

Block Influence: 基于隐藏状态余弦相似度的层重要性度量,本文采用更全面的多指标方案

方法相关

Perplexity: 核心评估指标

Ridge Regression: 权重可预测性分析工具

SVD: Low-rank blend 操纵策略

AdamW: 恢复速度实验的优化器

Softmax: R²-Perplexity 悖论的核心解释——级联敏感性

残差连接: 振荡模式的结构性解释

Multi-Head Attention: 模型核心组件,9 头注意力

硬件/数据相关

NVIDIA T4 16GB (Kaggle Notebooks)

速查卡片

Anatomical Heterogeneity in Transformer Language Models

  • 核心: Transformer 层间存在 10710^7 倍的功能异质性,可据此差异化分配训练预算
  • 方法: 5 种诊断指标绘制层重要性图谱 + 生物发育式 6 阶段 Growth Training
  • 结果: 同参数量下验证损失降低 4.7 倍,训练成本节省约 54%
  • 代码: https://github.com/tomaszwi66

笔记创建时间: 2026-03-24