G-Vendi Score:梯度度量数据多样性
分类: 推理与评估 · 难度: 进阶 · 关联讲座: L19
G-Vendi Score(Jung et al. NeurIPS 2025)提出了一种基于模型梯度而非文本表面特征的数据多样性度量方法。核心思想是:两个样本对模型参数的影响方向(梯度方向)相似,则它们在功能上是冗余的;梯度方向正交,则功能互补。G-Vendi Score 与 OOD 泛化能力的相关性 ,远超传统的 n-gram 或 embedding 多样性指标。
📐 G-Vendi Score:用梯度度量数据多样性
核心思想:不用文本表面特征(n-gram 重叠、BERTScore),而是用模型梯度作为数据的”功能指纹”。
步骤 1 — 梯度表示:对每个样本 ,计算小参考模型 上的梯度:
其中 是参数量(可能数十亿)。
步骤 2 — 随机降维:用 Rademacher 随机投影 (JL 引理保证距离保持):
步骤 3 — 核矩阵与 Vendi Score:
归一化为密度矩阵 ,计算矩阵熵:
其中 是 的特征值。
关键发现:G-Vendi Score 与 OOD 泛化能力的相关性 ,远超 n-gram 多样性()和 embedding 多样性()。
🔢 Prismatic Synthesis 流水线的具体数字
| 阶段 | 输入 | 输出 | 关键参数 |
|---|---|---|---|
| 过生成 | 7.5K seed 题目 | 500K 解题轨迹 | Teacher: R1-32B (20x 小于 R1-671B) |
| 质量过滤 | 500K 轨迹 | 120K 正确轨迹 | Majority vote (8 次采样,≥5 正确) |
| 梯度多样性过滤 | 120K 轨迹 | 50K 高多样性子集 | G-Vendi Score 最大化贪心选择 |
| SFT | 50K 训练集 | PrismMath-7B | Base: Qwen2.5-Math-7B, 3 epochs |
结果对比(MATH-500 + AIME 2024):
| 模型 | Teacher 大小 | 人类标注 | MATH-500 | AIME |
|---|---|---|---|---|
| OpenThinker-7B | R1-671B | 无 | 83.0 | 43.3 |
| R1-distill-7B | R1-671B | 无 | 82.6 | 46.7 |
| PrismMath-7B | R1-32B | 零 | 84.8 | 50.0 |
用 20x 小的 teacher + 梯度驱动的多样性选择,反超了用大 teacher 的蒸馏方法。
💡 为什么梯度比文本表示更好?
两道数学题可能文本完全不同(一道几何、一道代数),但对模型参数的影响(梯度方向)相似——说明模型用相同的内部机制来解决它们,功能上是冗余的。
反过来,两道看似相似的题目(都是方程求解),如果梯度方向正交,说明它们激活了模型的不同内部路径,功能上是互补的。
G-Vendi Score 就是在梯度空间中度量”有效样本数量”——选出梯度方向最分散的子集,等价于最大化训练数据对模型参数空间的覆盖率。