振荡模式
分类: 基础理论
振荡模式
定义
Transformer 层间权重变化(Delta)呈交替正负振荡的现象,连续 Delta 的 Pearson 相关性恒定约为
数学形式
核心要点
驻波模式: 若第 层到 层权重偏移方向为 ,则 到 偏移方向约为
普遍性: 在 Transformer 所有 7 种权重矩阵(q/k/v/o_proj, gate/up/down_proj)中均观察到该模式
成因假说: 残差连接创造了自然的振荡补偿——若 将表征偏移方向 ,下一层优化时倾向偏移方向 并引入方向 的细化
实际意义: 权重在层空间中形成驻波,解释了为什么简单的层克隆/混合策略会失败(破坏了振荡结构)
代表工作
Growth Transformer Training: 首次发现并系统验证了 Transformer 权重的通用振荡模式