振荡模式

分类: 基础理论

振荡模式

定义

Transformer 层间权重变化(Delta)呈交替正负振荡的现象,连续 Delta 的 Pearson 相关性恒定约为 0.50-0.50

数学形式

ρ(Δl,Δl+1)0.50,where Δl=Wl+1Wl\rho(\Delta_l, \Delta_{l+1}) \approx -0.50, \quad \text{where } \Delta_l = W_{l+1} - W_l

核心要点

驻波模式: 若第 ll 层到 l+1l+1 层权重偏移方向为 +A+A,则 l+1l+1l+2l+2 偏移方向约为 A-A

普遍性: 在 Transformer 所有 7 种权重矩阵(q/k/v/o_proj, gate/up/down_proj)中均观察到该模式

成因假说: 残差连接创造了自然的振荡补偿——若 flf_l 将表征偏移方向 AA,下一层优化时倾向偏移方向 A-A 并引入方向 BB 的细化

实际意义: 权重在层空间中形成驻波,解释了为什么简单的层克隆/混合策略会失败(破坏了振荡结构)

代表工作

Growth Transformer Training: 首次发现并系统验证了 Transformer 权重的通用振荡模式

相关概念

残差连接

Transformer