CS224N / 学习笔记

压缩顺序定理

分类: 基础理论

压缩顺序定理

定义

在联合模型压缩中，描述压缩方法施加顺序对最终性能影响的理论结果

数学形式

Theorem 1 (Disjoint Selectivity 下的压缩顺序优势):

\mathcal{A}(f_1 \to f_2) = \beta \cdot \left(\sum_{u_i \in \mathbb{G}_2} g(u_i) - \sum_{u_i \in \mathbb{G}_1} g(u_i)\right)

Theorem 2 (单调性):

C^*_{\mathcal{P}_1} - C_{\mathcal{Q}_1} > C^*_{\mathcal{P}_1} - C_{\mathcal{Q}_2} \implies \mathcal{A}(\mathcal{Q}_1 \to \mathcal{P}) \geq \mathcal{A}(\mathcal{Q}_2 \to \mathcal{P})

核心要点

Theorem 1: 顺序优势仅取决于顺序依赖单元（分配随顺序变化的单元）

Theorem 2: 压缩顺序优势随 CER 差异单调递增

依赖 Disjoint Selectivity 和误差-性能折衷两个假设

支撑 Progressive Intensity Hypothesis：弱压缩先行、强压缩后施

代表工作

Compression Order: 提出并证明该定理

相关概念

误差-性能折衷

结构化剪枝