mHC
分类: 网络架构
mHC
定义
通过维护 条并行隐状态流(multi-stream),用 learned mixing matrix 在流之间交换信息,实现 input-dependent 的深度信息混合
数学形式
展开后 depth mixing weight:
核心要点
条并行流使 mixing matrix 为 -semiseparable
引入 input dependence,但 I/O 开销高: 时 per-layer I/O 为 (vs AttnRes 的 )
对应 depth-wise linear attention with matrix-valued states
mHC-lite 变体通过减少 Sinkhorn 迭代简化
代表工作
Zhu et al. 2025: Hyper-Connections
Xie et al. 2026: mHC (Manifold-Constrained HC)
Yang & Gao 2026: mHC-lite