mHC

分类: 网络架构

mHC

定义

通过维护 mm 条并行隐状态流(multi-stream),用 learned mixing matrix 在流之间交换信息,实现 input-dependent 的深度信息混合

数学形式

Hl=Hl1Al+fl1(Hl1αl1)βl1\mathbf{H}_l = \mathbf{H}_{l-1} \mathbf{A}_l + f_{l-1}(\mathbf{H}_{l-1} \boldsymbol{\alpha}_{l-1}) \boldsymbol{\beta}_{l-1}^\top

展开后 depth mixing weight: Mil=βiAi+1l×αl\mathbf{M}_{i \to l} = \boldsymbol{\beta}_i^\top \mathbf{A}_{i+1 \to l}^\times \boldsymbol{\alpha}_l

核心要点

mm 条并行流使 mixing matrix 为 mm-semiseparable

引入 input dependence,但 I/O 开销高:m=4m=4 时 per-layer I/O 为 34d34d(vs AttnRes 的 5.5d5.5d

对应 depth-wise linear attention with matrix-valued states

mHC-lite 变体通过减少 Sinkhorn 迭代简化

代表工作

Zhu et al. 2025: Hyper-Connections

Xie et al. 2026: mHC (Manifold-Constrained HC)

Yang & Gao 2026: mHC-lite

相关概念

残差连接

AttnRes

Highway Network