1 Introduction
文中敏锐地指出,现有的推测解码方法大多采用一种固定长度策略 (fixed-length policy) ,即无论上下文如何,草稿模型每次都尝试生成一个固定数量 (例如5个) 的词元. 论文的核心论点是: 这种固定长度的策略是次优的,甚至可能是低效的。
作者首先引入了 神谕草稿长度 (Oracle Draft Length) 的概念,即在给定上下文中,目标模型实际会接受的草稿词元的最大数量 。论文通过实验 (如图1所示) 有力地证明,这个“神谕长度”绝非一成不变,而是剧烈波动的。特别是在长上下文 和复杂推理任务 (如AIME基准测试) 中 ,可接受的长度方差极大 (例如,在AIME上,可接受长度从6到17不等) .
一个固定的长度 (比如5) 在这种情况下显然存在问题:
- 当模型非常有把握、神谕长度为10时,它只生成了5个,浪费了潜在的加速空间。
- 当模型非常不确定、神谕长度只有2时,它却生成了5个,后3个词元几乎注定被拒绝,这浪费了草稿模型的计算资源,并可能拖慢整个流程。
既然神谕长度是动态变化的,我们该如何预测它呢?作者提出了一个极其巧妙的洞察: 我们不需要目标模型来告诉我们何时停止,草稿模型自己“知道”它何时开始变得不确定 。
这个“不确定性”的量化指标就是信息论中的经典概念——预测熵 (Prediction Entropy).
作者通过实验 (图3a和表1) 证明了这一点:
- 当草稿模型生成的词元即将被目标模型拒绝时,草稿模型在该位置的KL散度 (衡量与目标模型分布的差异) 会突然飙升 。
- 更重要的是,在被拒绝的词元位置,草稿模型自身的预测熵也显著更高 。例如,在AIME基准上,被接受词元的平均熵仅为0.25,而被拒绝词元的平均熵高达1.30.
2 Draft Model Knows When to Stop
词元拒绝现象发生得很突然,并且在拒绝发生的位置,草稿模型的熵 (entropy) 会非常高。因此,SVIP 的核心目标就是利用草稿模型自身的熵来检测这种不确定性,从而动态地决定何时停止起草。
Lower Bound of Acceptance
SVIP 的推导始于对推测解码系统 (SD systems) 理论接受率的深入研究。给定目标模型 $p$ 和草稿模型 $q$,一个草稿词元 $x_t$ 的接受概率为 $min(1, \frac{p(x_t)}{q(x_t)})$.
在整个分布上,期望接受概率 $\beta$ 为:
$$ \begin{aligned}\beta&=\sum_xq(x)\cdot\min\left(1,\frac{p(x)}{q(x)}\right)\\&=\sum_x\min\left(p(x),q(x)\right),\end{aligned}\tag{1} $$$\beta$ 指在当前上下文中,草稿模型 $q$ 生成的任何一个词元被目标模型 $p$ 接受的平均概率或期望值。
论文指出,$\beta$ 与 $p$ 和 $q$ 之间的总变差距离 (TVD) 相关。随后,论文利用 Pinsker 不等式推导出了 $\beta$ 的一个下界,称之为“神谕下界” (oracle bound) :
$$ \begin{aligned}\beta&=1-\mathrm{TVD}(p,q)&\\&\geqslant1-\sqrt{\frac12\mathbb{K}\mathbb{L}(q||p)}&\\&=1-\sqrt{\frac12H_{q,p}-\frac12H_q}&\end{aligned}\tag{2} $$其中 $H_{q,p}$ 是 $q$ 和 $p$ 之间的交叉熵, $H_q$ 是草稿模型 $q$ 自身的熵。
公式 2 推理过程
首先 两个概率分布 $p$ 和 $q$ 之间的 TVD 定义为:
$$ TVD(p,q) = \frac{1}{2} \sum_{x} |p(x) - q(x)| $$对于任意两个非负数 $a$ 和 $b$ (在这里即 $p(x)$ 和 $q(x)$) ,存在一个恒等式:
$$ a + b = |a - b| + 2 \cdot min(a, b) $$可以验证一下这个恒等式: 如果 $a \ge b$,则 $a+b = (a-b) + 2b$,成立。如果 $b > a$,则 $a+b = (b-a) + 2a$,也成立。
将恒等式应用于概率我们将这个恒等式应用于 $p(x)$ 和 $q(x)$:
$$ p(x) + q(x) = |p(x) - q(x)| + 2 \cdot min(p(x), q(x)) $$. 将上式在词表中的所有 $x$ 上进行求和:
$$ \sum_{x} (p(x) + q(x)) = \sum_{x} |p(x) - q(x)| + \sum_{x} (2 \cdot min(p(x), q(x))) $$. 利用概率性质简化由于 $p$ 和 $q$ 都是概率分布,它们在各自词表上所有 $x$ 的概率之和都等于 1. 代入等号左侧。现在,我们的等式变成了:
$$ 2 = \sum_{x} |p(x) - q(x)| + 2 \cdot \sum_{x} min(p(x), q(x)) $$. 求解 $min$ 的和我们将等式变形,
$$ \sum_{x} min(p(x), q(x)) = 1 - \frac{1}{2} \sum_{x} |p(x) - q(x)| $$. 替换回 $\beta$ 和 TVD 即可得到:
$$\beta = 1 - TVD(p,q)$$这个“神谕下界”虽然理论上成立,但在实际的草稿生成 (drafting) 阶段无法使用。因为计算它需要 $H_{q,p}$,而 $H_{q,p}$ 依赖于目标模型 $p$ 的瞬时访问,这在起草阶段是不可行的。
Approximating the Oracle Bound with Draft Distribution 为了让这个下界变得实用,论文提出了一个关键的近似方法: 仅使用草稿模型自身的熵 $H_q$ 来近似交叉熵 $H_{q,p}$. 首先,假设 $H_{q,p} = \gamma H_q$,其中 $\gamma$ 是一个随机变量,代表 $H_{q,p}$ 和 $H_q$ 之间的比率。将此代入神谕下界,得到:
$$ \beta \ge 1 - \sqrt{\frac{1}{2}(\gamma-1)H_q} $$为了让这个界限变得实用,论文进一步用一个常数 $c$ 来近似 $\gamma$. 最终的估计下界:
$$ \beta\geq1-\sqrt{\frac12(\gamma-1)H_q}\approx1-\sqrt{cH_q}. $$这个估计下界 (approximation bound) 仅依赖于草稿模型的熵 $H_q$,因此可以在起草阶段被高效计算。
Detecting Rejection with Draft Entropy SVIP 利用这个下界来动态调整草稿长度。在草稿模型生成每一个词元后,计算这个估计下界 ($1 - \sqrt{cH_q}$) . 如果这个值低于某个预设的接受率门槛 $\hat{h}$,就停止起草,即 $1 - \sqrt{cH_q} < \hat{h}$. 由于 $c$ 和 $\hat{h}$ 都是常数超参数,论文将它们合并为一个的阈值 $h$,其中 $h = (1 - \hat{h}) / \sqrt{c}$. 最终的SVIP停止准则:
$$\sqrt{H_q(x_{在给定的前缀 $x_{ Justifying the Approximation Bound 为了确保这个估计下界是安全 ,它必须始终低于神谕下界。通过推导,这要求随机变量 $\gamma$ 必须满足 $\gamma \le 2c + 1$. n$\gamma$ 是一个 $\ge 1$ 的右偏随机变量。如果将其建模为 $\gamma = 1 + X$ (其中 $X \sim Gamma(\alpha, \beta)$) ,那么这个近似有效的概率 $P(\gamma \le 2c+1)$ 就可以被计算出来。 选择 $c$ (即选择 $h$) 是一个权衡: 论文通过实验 (图4) 证明,只要 $h$ (即 $c$) 被恰当选择 (在图中设置为 0.18) ,这个估计下界在大多数情况下都能很好地工作。 论文主要对比了三种不同的草稿长度 (draft length) 策略: 评估指标 这部分实验在常规的长文本生成任务上验证 SVIP。 实验设置: 实验结果: SVIP 显著优于基线 (图 5): SVIP 为什么更快? (图 6): SVIP 完美拟合“神谕长度” (图 7b): SVIP 可增强 SOTA 方法 (表 2): 这部分实验在更困难、输出更长的推理任务上验证 SVIP. 实验设置: 实验结果 (表 3):3 Experiments
transformers 库中实现的策略。其逻辑是:如果当前迭代中所有草稿词元都被接受,则下一轮草稿长度+2;否则-1。实验 1:长文本生成 (Long-form Generation)
temperature=1. (作者发现,若使用贪婪解码 (greedy decoding),模型在长文本生成中易陷入“重复幻觉”,导致熵极低和加速比被夸大,因此主实验采用采样) 。实验 2:长文本推理 (Long-form Reasoning)