G-Vendi Score：梯度度量数据多样性

分类: 推理与评估 · 难度: 进阶 · 关联讲座: L19

G-Vendi Score（Jung et al. NeurIPS 2025）提出了一种基于模型梯度而非文本表面特征的数据多样性度量方法。核心思想是：两个样本对模型参数的影响方向（梯度方向）相似，则它们在功能上是冗余的；梯度方向正交，则功能互补。G-Vendi Score 与 OOD 泛化能力的相关性 $R^2 > 0.82$ ，远超传统的 n-gram 或 embedding 多样性指标。

📐 G-Vendi Score：用梯度度量数据多样性

核心思想：不用文本表面特征（n-gram 重叠、BERTScore），而是用模型梯度作为数据的”功能指纹”。

步骤 1 — 梯度表示：对每个样本 $(x_i, y_i)$ ，计算小参考模型 $\theta_{\text{ref}}$ 上的梯度：

$g_i = \nabla_\theta \log P_{\theta_{\text{ref}}}(y_i | x_i) \in \mathbb{R}^p$

其中 $p$ 是参数量（可能数十亿）。

步骤 2 — 随机降维：用 Rademacher 随机投影 $R \in \{-1/\sqrt{d}, +1/\sqrt{d}\}^{d \times p}$ （JL 引理保证距离保持）：

$\tilde{g}_i = R \cdot g_i \in \mathbb{R}^d, \quad d = 1024$

步骤 3 — 核矩阵与 Vendi Score：

$K_{ij} = \frac{\tilde{g}_i^T \tilde{g}_j}{\|\tilde{g}_i\| \|\tilde{g}_j\|} \quad \text{(余弦相似度核)}$

归一化为密度矩阵 $\rho = K / \text{tr}(K)$ ，计算矩阵熵：

$S_{\text{G-Vendi}} = \exp\!\left(-\text{tr}(\rho \log \rho)\right) = \exp\!\left(-\sum_k \lambda_k \log \lambda_k\right)$

其中 $\lambda_k$ 是 $\rho$ 的特征值。

关键发现：G-Vendi Score 与 OOD 泛化能力的相关性 $R^2 > 0.82$ ，远超 n-gram 多样性（ $R^2 \approx 0.3$ ）和 embedding 多样性（ $R^2 \approx 0.5$ ）。

🔢 Prismatic Synthesis 流水线的具体数字

阶段	输入	输出	关键参数
过生成	7.5K seed 题目	500K 解题轨迹	Teacher: R1-32B (20x 小于 R1-671B)
质量过滤	500K 轨迹	120K 正确轨迹	Majority vote (8 次采样，≥5 正确)
梯度多样性过滤	120K 轨迹	50K 高多样性子集	G-Vendi Score 最大化贪心选择
SFT	50K 训练集	PrismMath-7B	Base: Qwen2.5-Math-7B, 3 epochs

结果对比（MATH-500 + AIME 2024）：

模型	Teacher 大小	人类标注	MATH-500	AIME
OpenThinker-7B	R1-671B	无	83.0	43.3
R1-distill-7B	R1-671B	无	82.6	46.7
PrismMath-7B	R1-32B	零	84.8	50.0

用 20x 小的 teacher + 梯度驱动的多样性选择，反超了用大 teacher 的蒸馏方法。

💡 为什么梯度比文本表示更好？

两道数学题可能文本完全不同（一道几何、一道代数），但对模型参数的影响（梯度方向）相似——说明模型用相同的内部机制来解决它们，功能上是冗余的。

反过来，两道看似相似的题目（都是方程求解），如果梯度方向正交，说明它们激活了模型的不同内部路径，功能上是互补的。

G-Vendi Score 就是在梯度空间中度量”有效样本数量”——选出梯度方向最分散的子集，等价于最大化训练数据对模型参数空间的覆盖率。