Anatomical Heterogeneity in Transformer Language Models

作者: Tomasz Wietrzykowski 年份: 2026 会议: arXiv 分类: 模型增长

论文笔记：Anatomical Heterogeneity in Transformer Language Models

元信息

项目	内容
机构	未公开
日期	March 2026
项目主页	N/A
对比基线	Uniform Training (等预算训练)
链接	arXiv / Code

一句话总结

揭示 Transformer 层间存在深刻的功能异质性，并据此提出 Growth Transformer Training，以差异化训练预算实现 4.7 倍验证损失降低

核心贡献

完整 30 层重要性图谱: 用 5 种诊断指标（消融、权重可预测性、Delta 振荡、操纵策略、恢复速度）绘制 SmolLM2-135M 的层级功能地图，揭示关键层与冗余层的 $10^7$ 倍重要性差距

Anti-layer 现象发现: 发现 L14、L17 被扰动后性能反而提升，类似生物学中的”退化器官”

R²-Perplexity 悖论: 权重统计可预测性高（ $R^2 = 0.91$ ）但功能不可替代，揭示 Softmax 的级联敏感性

Growth Transformer Training: 基于生物发育学类比的差异化训练策略，核心层满预算、冗余层低预算，同参数量下达到 4.7 倍更低的验证损失

问题背景

要解决的问题

当前 Transformer 训练协议对所有层施加统一的计算预算，未考虑层间功能差异

直觉上，不同层应承担不同角色（如输入解析、深度推理、输出准备），统一训练可能造成资源浪费

现有方法的局限

表征分析工作（Tenney et al., Rogers et al.）已发现层级特化，但停留在表征层面，未深入到权重级别的重要性量化

LayerDrop 等层剪枝工作证明了部分层可移除，但缺乏跨多指标的全层重要性图谱

渐进式训练（如 Progressive Stacking）虽有层增长思路，但未回答”每层需要多少训练预算”

本文的动机

以生物发育学为类比：生物体不同器官在胚胎发育中按时序和优先级分化，关键器官优先发育

假设 Transformer 层也存在类似的功能层次，可据此设计非均匀训练策略

方法详解

分析框架

本文对 SmolLM2-135M（30 层、135M 参数、hidden dim 576、9 个注意力头）进行系统性分析，每层包含 7 个权重矩阵：q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj。

基线 Perplexity = 22.60（10 条多样英文句子）。

诊断指标 1: 层重要性图谱（消融分析）

协议: 将目标层权重替换为相邻层平均值，测量 Perplexity 退化

消融公式:

W_l \leftarrow \frac{W_{l-1} + W_{l+1}}{2}

退化度量:

D_l = \left(\frac{\text{PPL}_l}{\text{PPL}_{\text{baseline}}} - 1\right) \times 100\%

分类阈值:

Redundant: $D < 10\%$
Minor: $10\% \leq D < 30\%$
Important: $30\% \leq D < 100\%$
Critical: $D \geq 100\%$

诊断指标 2: 权重可预测性

用 Ridge Regression 拟合层索引到权重的映射，特征包含多项式和三角函数:

X = [l, \; l^2, \; \sin(l\pi / N), \; \cos(l\pi / N)]

对 Layer 2-29 进行预测，度量 $R^2$ 和余弦相似度

诊断指标 3: 权重结构分析（Delta 振荡）

计算相邻层权重差:

\Delta_l = W_{l+1} - W_l

度量连续 Delta 的 Pearson 相关性:

\rho(\Delta_l, \Delta_{l+1}) \approx -0.50

发现所有 7 个权重矩阵的 Delta 相关性均约为 $-0.50$ ，即权重在层空间中形成驻波模式

诊断指标 4: 权重操纵策略

测试 5 类操纵方法对模型性能的影响：

Skip/Zero: 直接跳过/置零
Clone: 克隆最近邻层
Blend: 距离加权平均
Low-rank SVD blend: SVD 低秩混合
Scale: 缩放因子 $\alpha \in \{0.0, 0.1, 0.3, 0.5, 0.7, 0.9\}$

诊断指标 5: 恢复速度

注入高斯噪声: $\sigma = 0.5 \times \text{std}(W_l)$

冻结其他层，用 AdamW（ $\text{lr} = 10^{-4}$ ）微调目标层

记录达到 $< 2\times$ 、 $< 1.5\times$ 、 $< 1.1\times$ 基线 PPL 所需步数

Growth Transformer Training（概念验证）

基于上述分析，设计12 层异构 Transformer（总参数 9.57M，与均匀基线相同）：

Critical 层: FFN 乘数 $\times 4$

Minor 层: FFN 乘数 $\times 2$

Redundant 层: FFN 乘数 $\times 1$

Anti-layer: 直接省略

采用六阶段发育式训练协议（模拟生物胚胎发育）：

Gastrulation（原肠胚形成）: 仅训练核心层 L4, L5（30 epochs）
Neurulation（神经管形成）: 克隆核心层 → 输入解析层 L1, L2（20 epochs）
Organogenesis（器官发生）: 克隆核心层 → 输出层 L8, L9（20 epochs）
Growth（生长）: 克隆 → Minor 层 L7, L10（12 epochs）
Connective（结缔组织）: 克隆 + FFN 缩放 $\times 0.5$ → Redundant 层（6 epochs）
Maturation（成熟）: 全层微调（15 epochs）

核心层累计约 95 个有效 epoch，冗余层仅约 21 个。

关键公式

公式1: 层消融替换

W_l \leftarrow \frac{W_{l-1} + W_{l+1}}{2}

含义: 将目标层权重替换为相邻层的简单平均，测试该层的功能不可替代性

符号说明:

$W_l$ : 第 $l$ 层的权重矩阵
$W_{l-1}, W_{l+1}$ : 相邻层权重

公式2: 退化度量

D_l = \left(\frac{\text{PPL}_l}{\text{PPL}_{\text{baseline}}} - 1\right) \times 100\%

含义: 量化消融第 $l$ 层后的相对性能退化百分比

符号说明:

$\text{PPL}_l$ : 消融层 $l$ 后的困惑度
$\text{PPL}_{\text{baseline}}$ : 原始模型困惑度（22.60）

公式3: 权重预测特征

X = [l, \; l^2, \; \sin(l\pi / N), \; \cos(l\pi / N)]

含义: 用多项式 + 三角函数特征从层索引预测权重，捕捉线性趋势和周期性模式

符号说明:

$l$ : 层索引
$N$ : 总层数

公式4: 权重 Delta 序列

\Delta_l = W_{l+1} - W_l

含义: 相邻层权重差，用于分析权重在层空间中的变化模式

符号说明:

$\Delta_l$ : 第 $l$ 层与第 $l+1$ 层的权重差

公式5: Delta 相关性

\rho(\Delta_l, \Delta_{l+1}) \approx -0.50

含义: 连续 Delta 之间的 Pearson 相关性恒定约为 $-0.50$ ，表明权重变化呈交替正负振荡——若 $l \to l+1$ 权重偏移方向为 $+A$ ，则 $l+1 \to l+2$ 偏移方向为 $-A$

符号说明:

$\rho$ : Pearson 相关系数

公式6: 注意力机制敏感性

\text{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right)

含义: 注意力分数计算，本文揭示该机制对权重扰动极度敏感—— $Q$ 或 $K$ 矩阵 1% 的扰动即可完全改变注意力分布，解释了为何高 $R^2$ 预测仍导致灾难性失败

符号说明:

$Q, K$ : Query 和 Key 矩阵
$d$ : 注意力头维度

关键图表

Figure 1: Layer Importance Profile / 层重要性图谱

![Layer Importance Profile](../assets/论文笔记___2-模型增长___Anatomical Heterogeneity_fig1.png)

展示 SmolLM2-135M 全部 30 层的消融退化分布（对数尺度），基于论文 Table 1 和 Appendix B 数据绘制：

关键特征:

双侧锚点: L1-L2（左侧输入解析）、L24-L28（右侧输出处理）
中央核心: L8-L11 为最高峰，L11 退化 +63,419%，是模型的”大脑”
平坦结缔组织: L3-L7、L12-L22 退化较低
Anti-layer 谷底: L14、L17 退化为负值（消融后性能提升）

Table 1: 30-Layer Importance Profile / 完整 30 层重要性图谱

Layer	Degradation (%)	Category	Functional Role
L0	0.0	Redundant	Embedding 边界
L1	+2,737.1	Critical	输入解析器
L2	+186.0	Critical	输入解析器
L3	+13.4	Redundant	填充层
L4	+22.7	Minor	特征提取
L5	+8.3	Redundant	填充层
L6	+9.4	Redundant	填充层
L7	+20.3	Minor	特征提取
L8	+2,395.6	Critical	核心推理
L9	+378.1	Critical	核心推理
L10	+9,870.7	Critical	深度推理
L11	+63,419.2	Critical	模型”大脑”
L12	+6.3	Redundant	填充层
L13	+24.4	Minor	细化
L14	+5.0	Redundant	Anti-layer
L15	+11.1	Minor	细化
L16	+20.3	Minor	细化
L17	−0.6	Redundant	Anti-layer
L18	+16.9	Minor	细化
L19	+2.6	Redundant	填充层
L20	+25.9	Minor	细化
L21	+23.5	Minor	细化
L22	+27.8	Minor	细化
L23	+66.6	Important	输出准备
L24	+115.2	Critical	输出核心
L25	+23.2	Minor	输出细化
L26	+19.4	Minor	输出细化
L27	+134.8	Critical	输出格式化
L28	+211.5	Critical	输出最终层
L29	0.0	Redundant	LN head 边界

表格说明: 退化范围跨越 $10^7$ （从 −0.6% 到 +63,419%）。分布为：Redundant 10 层（33%）、Minor 11 层（37%）、Important 1 层（3%）、Critical 8 层（27%）。L11 的重要性约为 L17 的 $10^6$ 倍。

Table 2: Weight Predictability / 权重可预测性

Component	Avg R²	Best R²	解释
mlp.gate_proj	0.909	0.993	高度可预测
mlp.down_proj	0.895	0.995	高度可预测
self_attn.q_proj	0.824	0.989	高度可预测
self_attn.k_proj	0.745	0.978	可预测
mlp.up_proj	0.716	0.985	可预测
self_attn.o_proj	0.079	0.941	弱可预测
self_attn.v_proj	−0.655	0.977	不稳定

表格说明: MLP 权重高度可预测（ $R^2 > 0.7$ ），但 v_proj 预测不稳定。关键发现是高 $R^2$ 不意味着功能可替换——替换 1 层 PPL 仅升至 26.22 (+16%)，替换 9+ 层则 PPL > 100,000。

Table 3: Delta Correlation / 层间 Delta 相关性

Component	Avg delta correlation	Pattern
mlp.down_proj	−0.500	振荡
mlp.gate_proj	−0.500	振荡
mlp.up_proj	−0.500	振荡
self_attn.k_proj	−0.497	振荡
self_attn.o_proj	−0.505	振荡
self_attn.q_proj	−0.499	振荡
self_attn.v_proj	−0.505	振荡

表格说明: 所有 7 个组件的 Delta 相关性一致约为 $-0.50$ ，表明残差连接创造了一种自然的振荡补偿：权重在层空间中形成驻波。

Table 4: Weight Manipulation / 权重操纵策略

Strategy	PPL	Degradation
Baseline (original)	22.60	0%
Scale ×0.9	26.95	+19%
Scale ×0.7	928.22	+5,035%
Blend (1/distance, 2 layers)	31,333	+173,242%
Scale ×0.5	86,505	+478,462%
Skip/Zero (2 layers)	969,198	+5,361,714%
Clone neighbor (2 layers)	545,654	+3,018,579%
Low-rank blend (2 layers)	891,155	+4,929,963%
Scale ×0.0 (full removal)	15,509,465	+85,800,000%

表格说明: 仅 Scale ×0.9 保持可用（+19%），其余策略均导致灾难性失败。说明冗余层虽然单独看不重要，但其方向性和近似幅度必须保留。

Table 5: Recovery Speed / 恢复速度

Layer	Category	PPL+noise	<2× steps	<1.5× steps	<1.1× steps	Final PPL
L14	Redundant	19.4	0	0	0	18.2 ↓
L17	Redundant	18.5	0	0	0	17.6 ↓
L5	Redundant	21.2	0	0	10	19.6
L23	Important	26.5	0	0	150	19.7
L24	Critical	26.8	0	0	110	19.6
L3	Redundant	27.3	0	10	200	27.3 (未收敛)
L27	Critical	27.7	0	10	130	19.8
L0	Redundant	38.6	10	30	200	28.7
L8	Critical	58.4	10	30	200	35.6
L1	Critical	54.7	20	200	200	49.3
L10	Critical	58.7	20	200	200	42.2
L11	Critical	4,323.4	200	200	200	175.9 (7.8×)
L29	Redundant	1,289.2	200	200	200	41.5

表格说明: L14/L17（Anti-layer）注入噪声后性能反而改善（PPL 从 22.60 降至 18.2/17.6）。L11 恢复最困难——200 步后仍为基线的 7.8 倍。恢复速度与层重要性高度相关，可作为训练预算分配的代理指标。

Table 6: Growth Transformer Architecture / 异构架构

Layer	Role	FFN mult.	Params
L0	redundant	×1	459,264
L1	critical	×4	1,049,088
L2	critical	×4	1,049,088
L3	redundant	×1	459,264
L4	critical	×4	1,049,088
L5	critical	×4	1,049,088
L6	redundant	×1	459,264
L7	minor	×2	655,872
L8	critical	×4	1,049,088
L9	critical	×4	1,049,088
L10	minor	×2	655,872
L11	redundant	×1	459,264
Total			9,570,048

表格说明: 12 层异构架构，关键层使用 4 倍 FFN 宽度，总参数量与 12 层均匀架构相同。Anti-layer 被直接省略。

Table 7: Developmental Training Protocol / 发育式训练协议

Phase	Name	Layers trained	Epochs
1	Gastrulation	Core (L4, L5)	30
2	Neurulation	Parser (L1, L2); clone L4→L1, L5→L2	20
3	Organogenesis	Output (L8, L9); clone L4→L8, L5→L9	20
4	Growth	Minor (L7, L10); clone L5→L7, L9→L10	12
5	Connective	Redundant (L0,L3,L6,L11); clone + scale FFN×0.5	6
6	Maturation	All layers (fine-tune)	15

表格说明: 核心层累计约 95 个有效 epoch（Phase 1-6），冗余层仅约 21 个有效 epoch（Phase 5-6），训练预算差异约 4.5 倍。

Table 8: Growth Training Results / 训练结果对比

Configuration	Steps	Val loss	Time	vs. Uniform 100%
Uniform 100%	656	0.599	59.6s	baseline
Growth 50%	416	0.279	–	2.1× better, 37% fewer steps
Growth 100%	656	0.127	52.0s	4.7× better, 13% faster

表格说明: 核心结果。Growth 100% 在相同步数和参数预算下实现 4.7 倍更低的验证损失，同时训练速度提升 13%。即使只用 50% 的步数，Growth 也已超越均匀训练。

Table 9: Generation Quality / 生成质量对比

Prompt	Growth 100%	Uniform 100%
the capital of france is	paris	paris. on.
cats are	popular pets around the world	popular pets around the world
python is a	popular programming language	popular programming language
the earth orbits	around the sun every year	around the sun every year
water boils at	one hundred degrees celsius	one hundred degrees celsius
artificial intelligence	is transforming the way we live	can learn from data
mathematics is	the language of science	the language of science
dogs are loyal	and faithful friends	and faithful friends
the sun is	a star at the center of our solar system	a star at the center of our solar system
the brain contains	about one hundred billion neurons	about one hundred billion neurons
music is a	universal form of expression	universal form of expression
hello how are	you today	you today. with neurons

表格说明: Growth 100% 在全部 12 个测试 prompt 上生成连贯文本；Uniform 在 2 个 edge case 出现伪影（“paris. on.” 和 “you today. with neurons”）。

Table 10: Proposed Training Budget / 训练预算分配方案

Layer Group	Layers	Budget ratio R(l)	Justification
Anti-layers	L14, L17	0.00	剪除/随机化；有害性能
Instant-recovery redundant	L3, L5, L6, L12, L19	0.00–0.05	0–10 步收敛
Minor layers	L4, L7, L13, L15–16, L18, L20–22, L25–26	0.30–0.50	增量细化
Critical output	L23–24, L27–28	0.80–1.00	关键但恢复快
Critical core + input	L1–2, L8–11	1.00	满预算；恢复慢/不可能
Boundary layers	L0, L29	0.15–0.20	异常恢复模式

表格说明: 假设均匀训练每层 200 步（总计 6,000 步），Growth Training 总步数约 2,760——节省约 54%。

实验结果

Growth Training 核心结果

![Growth Training vs Uniform](../assets/论文笔记___2-模型增长___Anatomical Heterogeneity_fig2.png)

主要发现:

Growth 100% 在相同步数（656 步）和参数预算（9.57M）下，验证损失从 0.599 降至 0.127，实现 4.7 倍的改善

即使仅使用 50% 步数（416 步），Growth Training 已超越均匀训练（0.279 vs 0.599）

训练时间从 59.6s 降至 52.0s，节省 13%

12 个测试 prompt 上 Growth 100% 全部生成连贯文本，Uniform 在 2 个 edge case 出现伪影

层异质性分析结果

重要性跨度: 层间功能重要性差距达 $10^7$ 倍（L11 退化 +63,419% vs L17 退化 −0.6%）

Anti-layer 现象: L14/L17 被扰动后性能反而提升——注入噪声后 PPL 从 22.60 降至 18.2/17.6

权重可预测性: MLP 权重高度可预测（ $R^2 > 0.7$ ），但高 $R^2$ 不意味着功能可替换（R²-Perplexity 悖论）

振荡模式: 所有 7 个权重组件的 Delta 相关性一致约为 $\rho \approx -0.50$ ，形成层空间驻波

恢复速度: L11 最难恢复（200 步后仍为基线的 7.8 倍），与层重要性高度相关

训练预算估算: 基于差异化分配，预计可节省约 54% 训练成本

实验设置

数据集

数据集	规模	特点	用途
10 条英文句子	极小	多样化、覆盖不同语境	消融/诊断评估
自定义训练集	小规模	用于 PoC 验证	Growth Training

实现细节

模型: SmolLM2-135M（30 层、135M 参数、hidden dim 576、9 头）

优化器: AdamW（ $\text{lr} = 10^{-4}$ ）

噪声注入: $\sigma = 0.5 \times \text{std}(W_l)$

恢复实验: 冻结除目标层外所有层，最多 200 步

PoC 模型: 12 层异构 Transformer，9.57M 参数

硬件: NVIDIA T4 16GB (Kaggle Notebooks)

运行时间: ~45 分钟 (GPU)，~3 小时 (CPU)

可视化结果

层重要性呈双峰分布：中央核心 L8-L11 和输入/输出锚点 L1-L2/L24-L28 构成关键结构

权重 Delta 振荡模式在所有组件中高度一致（ $\rho \approx -0.50$ ），形成驻波

Anti-layer 的”负退化”现象在消融和噪声注入中交叉验证

批判性思考

优点

系统性分析框架: 5 种互补指标提供层重要性的多维度视图，单一指标的偏差被交叉验证弥补

生物学类比新颖且有启发性: 将层功能映射到器官系统（brainstem、cortex、connective tissue），为理解和设计 Transformer 提供新视角

发现具有实际价值: Anti-layer 现象、R²-Perplexity 悖论、振荡模式都是新颖且有实际意义的发现

PoC 直接验证: Growth Training 不仅是理论分析，还通过实验证明了 4.7 倍的性能提升

可复现性高: 使用公开模型、Kaggle 环境、完整超参数

局限性

单模型分析: 仅分析 SmolLM2-135M（135M），未验证大模型（如 7B+）是否存在相同模式

评估规模极小: 仅 10 条句子的 Perplexity，冗余层在更复杂任务上可能重要

训练后分析: 分析的是已训练完成的模型，层级特化在训练过程中如何涌现仍是未知

PoC 规模有限: 9.57M 参数的验证距离生产级规模还有很大距离

Anti-layer 泛化性未知: L14/L17 的”退化器官”特性是否跨架构/跨规模存在需要进一步验证

潜在改进方向

多模型验证: 在 LLaMA-7B/13B、Mistral 等主流模型上复现分析

训练动态研究: 追踪层重要性在训练过程中的演化

自适应训练预算: 动态调整每层训练预算（而非预定义固定方案）

更大规模 Growth Training: 在 100M+ 参数模型上验证效果

与现有方法结合: 将 Growth Training 与渐进式堆叠、知识蒸馏、层剪枝结合

可复现性评估

代码开源（https://github.com/tomaszwi66）
预训练模型（使用公开的 SmolLM2-135M）
训练细节完整
数据集可获取（使用公开模型 + 标准评估）

关联笔记

基于

progressive training: Growth Training 的核心思想——渐进式训练，但本文从层重要性分析出发确定差异化预算

LayerDrop: Fan et al. 2020 证明了层可删除性，本文进一步量化全层重要性

对比

ShortGPT: 同为层重要性分析和层剪枝，但 ShortGPT 关注推理效率，本文关注训练效率

Block Influence: 基于隐藏状态余弦相似度的层重要性度量，本文采用更全面的多指标方案

方法相关

Perplexity: 核心评估指标

Ridge Regression: 权重可预测性分析工具

SVD: Low-rank blend 操纵策略

AdamW: 恢复速度实验的优化器

Softmax: R²-Perplexity 悖论的核心解释——级联敏感性

残差连接: 振荡模式的结构性解释

Multi-Head Attention: 模型核心组件，9 头注意力

硬件/数据相关

NVIDIA T4 16GB (Kaggle Notebooks)

速查卡片

Anatomical Heterogeneity in Transformer Language Models

核心: Transformer 层间存在 $10^7$ 倍的功能异质性，可据此差异化分配训练预算
方法: 5 种诊断指标绘制层重要性图谱 + 生物发育式 6 阶段 Growth Training
结果: 同参数量下验证损失降低 4.7 倍，训练成本节省约 54%
代码: https://github.com/tomaszwi66

笔记创建时间: 2026-03-24