G-Vendi Score:梯度度量数据多样性

分类: 推理与评估 · 难度: 进阶 · 关联讲座: L19

G-Vendi Score(Jung et al. NeurIPS 2025)提出了一种基于模型梯度而非文本表面特征的数据多样性度量方法。核心思想是:两个样本对模型参数的影响方向(梯度方向)相似,则它们在功能上是冗余的;梯度方向正交,则功能互补。G-Vendi Score 与 OOD 泛化能力的相关性 R2>0.82R^2 > 0.82,远超传统的 n-gram 或 embedding 多样性指标。


📐 G-Vendi Score:用梯度度量数据多样性

核心思想:不用文本表面特征(n-gram 重叠、BERTScore),而是用模型梯度作为数据的”功能指纹”。

步骤 1 — 梯度表示:对每个样本 (xi,yi)(x_i, y_i),计算小参考模型 θref\theta_{\text{ref}} 上的梯度:

gi=θlogPθref(yixi)Rpg_i = \nabla_\theta \log P_{\theta_{\text{ref}}}(y_i | x_i) \in \mathbb{R}^p

其中 pp 是参数量(可能数十亿)。

步骤 2 — 随机降维:用 Rademacher 随机投影 R{1/d,+1/d}d×pR \in \{-1/\sqrt{d}, +1/\sqrt{d}\}^{d \times p}(JL 引理保证距离保持):

g~i=RgiRd,d=1024\tilde{g}_i = R \cdot g_i \in \mathbb{R}^d, \quad d = 1024

步骤 3 — 核矩阵与 Vendi Score

Kij=g~iTg~jg~ig~j(余弦相似度核)K_{ij} = \frac{\tilde{g}_i^T \tilde{g}_j}{\|\tilde{g}_i\| \|\tilde{g}_j\|} \quad \text{(余弦相似度核)}

归一化为密度矩阵 ρ=K/tr(K)\rho = K / \text{tr}(K),计算矩阵熵:

SG-Vendi=exp ⁣(tr(ρlogρ))=exp ⁣(kλklogλk)S_{\text{G-Vendi}} = \exp\!\left(-\text{tr}(\rho \log \rho)\right) = \exp\!\left(-\sum_k \lambda_k \log \lambda_k\right)

其中 λk\lambda_kρ\rho 的特征值。

关键发现:G-Vendi Score 与 OOD 泛化能力的相关性 R2>0.82R^2 > 0.82,远超 n-gram 多样性(R20.3R^2 \approx 0.3)和 embedding 多样性(R20.5R^2 \approx 0.5)。

🔢 Prismatic Synthesis 流水线的具体数字

阶段输入输出关键参数
过生成7.5K seed 题目500K 解题轨迹Teacher: R1-32B (20x 小于 R1-671B)
质量过滤500K 轨迹120K 正确轨迹Majority vote (8 次采样,≥5 正确)
梯度多样性过滤120K 轨迹50K 高多样性子集G-Vendi Score 最大化贪心选择
SFT50K 训练集PrismMath-7BBase: Qwen2.5-Math-7B, 3 epochs

结果对比(MATH-500 + AIME 2024):

模型Teacher 大小人类标注MATH-500AIME
OpenThinker-7BR1-671B83.043.3
R1-distill-7BR1-671B82.646.7
PrismMath-7BR1-32B84.850.0

用 20x 小的 teacher + 梯度驱动的多样性选择,反超了用大 teacher 的蒸馏方法。

💡 为什么梯度比文本表示更好?

两道数学题可能文本完全不同(一道几何、一道代数),但对模型参数的影响(梯度方向)相似——说明模型用相同的内部机制来解决它们,功能上是冗余的。

反过来,两道看似相似的题目(都是方程求解),如果梯度方向正交,说明它们激活了模型的不同内部路径,功能上是互补的。

G-Vendi Score 就是在梯度空间中度量”有效样本数量”——选出梯度方向最分散的子集,等价于最大化训练数据对模型参数空间的覆盖率。