1 Introduction

Overview of SVIP
Overview of SVIP

文中敏锐地指出,现有的推测解码方法大多采用一种固定长度策略 (fixed-length policy) ,即无论上下文如何,草稿模型每次都尝试生成一个固定数量 (例如5个) 的词元. 论文的核心论点是: 这种固定长度的策略是次优的,甚至可能是低效的。

作者首先引入了 神谕草稿长度 (Oracle Draft Length) 的概念,即在给定上下文中,目标模型实际会接受的草稿词元的最大数量 。论文通过实验 (如图1所示) 有力地证明,这个“神谕长度”绝非一成不变,而是剧烈波动的。特别是在长上下文 和复杂推理任务 (如AIME基准测试) 中 ,可接受的长度方差极大 (例如,在AIME上,可接受长度从6到17不等) .

一个固定的长度 (比如5) 在这种情况下显然存在问题:

  • 当模型非常有把握、神谕长度为10时,它只生成了5个,浪费了潜在的加速空间。
  • 当模型非常不确定、神谕长度只有2时,它却生成了5个,后3个词元几乎注定被拒绝,这浪费了草稿模型的计算资源,并可能拖慢整个流程。

既然神谕长度是动态变化的,我们该如何预测它呢?作者提出了一个极其巧妙的洞察: 我们不需要目标模型来告诉我们何时停止,草稿模型自己“知道”它何时开始变得不确定 。

这个“不确定性”的量化指标就是信息论中的经典概念——预测熵 (Prediction Entropy).

Agreement scores and sorted vocabulary log  probability at the rejection phenomenon
Agreement scores and sorted vocabulary log probability at the rejection phenomenon

作者通过实验 (图3a和表1) 证明了这一点:

  • 当草稿模型生成的词元即将被目标模型拒绝时,草稿模型在该位置的KL散度 (衡量与目标模型分布的差异) 会突然飙升 。
  • 更重要的是,在被拒绝的词元位置,草稿模型自身的预测熵也显著更高 。例如,在AIME基准上,被接受词元的平均熵仅为0.25,而被拒绝词元的平均熵高达1.30.

2 Draft Model Knows When to Stop

词元拒绝现象发生得很突然,并且在拒绝发生的位置,草稿模型的熵 (entropy) 会非常高。因此,SVIP 的核心目标就是利用草稿模型自身的熵来检测这种不确定性,从而动态地决定何时停止起草。

Lower Bound of Acceptance

SVIP 的推导始于对推测解码系统 (SD systems) 理论接受率的深入研究。给定目标模型 $p$ 和草稿模型 $q$,一个草稿词元 $x_t$ 的接受概率为 $min(1, \frac{p(x_t)}{q(x_t)})$.

在整个分布上,期望接受概率 $\beta$ 为:

$$ \begin{aligned}\beta&=\sum_xq(x)\cdot\min\left(1,\frac{p(x)}{q(x)}\right)\\&=\sum_x\min\left(p(x),q(x)\right),\end{aligned}\tag{1} $$

$\beta$ 指在当前上下文中,草稿模型 $q$ 生成的任何一个词元被目标模型 $p$ 接受的平均概率或期望值。

论文指出,$\beta$ 与 $p$ 和 $q$ 之间的总变差距离 (TVD) 相关。随后,论文利用 Pinsker 不等式推导出了 $\beta$ 的一个下界,称之为“神谕下界” (oracle bound) :

$$ \begin{aligned}\beta&=1-\mathrm{TVD}(p,q)&\\&\geqslant1-\sqrt{\frac12\mathbb{K}\mathbb{L}(q||p)}&\\&=1-\sqrt{\frac12H_{q,p}-\frac12H_q}&\end{aligned}\tag{2} $$

其中 $H_{q,p}$ 是 $q$ 和 $p$ 之间的交叉熵, $H_q$ 是草稿模型 $q$ 自身的熵。

公式 2 推理过程

首先 两个概率分布 $p$ 和 $q$ 之间的 TVD 定义为:

$$ TVD(p,q) = \frac{1}{2} \sum_{x} |p(x) - q(x)| $$

对于任意两个非负数 $a$ 和 $b$ (在这里即 $p(x)$ 和 $q(x)$) ,存在一个恒等式:

$$ a + b = |a - b| + 2 \cdot min(a, b) $$

可以验证一下这个恒等式: 如果 $a \ge b$,则 $a+b = (a-b) + 2b$,成立。如果 $b > a$,则 $a+b = (b-a) + 2a$,也成立。

将恒等式应用于概率我们将这个恒等式应用于 $p(x)$ 和 $q(x)$:

$$ p(x) + q(x) = |p(x) - q(x)| + 2 \cdot min(p(x), q(x)) $$

. 将上式在词表中的所有 $x$ 上进行求和:

$$ \sum_{x} (p(x) + q(x)) = \sum_{x} |p(x) - q(x)| + \sum_{x} (2 \cdot min(p(x), q(x))) $$

. 利用概率性质简化由于 $p$ 和 $q$ 都是概率分布,它们在各自词表上所有 $x$ 的概率之和都等于 1. 代入等号左侧。现在,我们的等式变成了:

$$ 2 = \sum_{x} |p(x) - q(x)| + 2 \cdot \sum_{x} min(p(x), q(x)) $$

. 求解 $min$ 的和我们将等式变形,

$$ \sum_{x} min(p(x), q(x)) = 1 - \frac{1}{2} \sum_{x} |p(x) - q(x)| $$

. 替换回 $\beta$ 和 TVD 即可得到:

$$\beta = 1 - TVD(p,q)$$

这个“神谕下界”虽然理论上成立,但在实际的草稿生成 (drafting) 阶段无法使用。因为计算它需要 $H_{q,p}$,而 $H_{q,p}$ 依赖于目标模型 $p$ 的瞬时访问,这在起草阶段是不可行的。

Approximating the Oracle Bound with Draft Distribution 为了让这个下界变得实用,论文提出了一个关键的近似方法: 仅使用草稿模型自身的熵 $H_q$ 来近似交叉熵 $H_{q,p}$. 首先,假设 $H_{q,p} = \gamma H_q$,其中 $\gamma$ 是一个随机变量,代表 $H_{q,p}$ 和 $H_q$ 之间的比率。将此代入神谕下界,得到:

$$ \beta \ge 1 - \sqrt{\frac{1}{2}(\gamma-1)H_q} $$

为了让这个界限变得实用,论文进一步用一个常数 $c$ 来近似 $\gamma$. 最终的估计下界:

$$ \beta\geq1-\sqrt{\frac12(\gamma-1)H_q}\approx1-\sqrt{cH_q}. $$

这个估计下界 (approximation bound) 仅依赖于草稿模型的熵 $H_q$,因此可以在起草阶段被高效计算。

Detecting Rejection with Draft Entropy SVIP 利用这个下界来动态调整草稿长度。在草稿模型生成每一个词元后,计算这个估计下界 ($1 - \sqrt{cH_q}$) . 如果这个值低于某个预设的接受率门槛 $\hat{h}$,就停止起草,即 $1 - \sqrt{cH_q} < \hat{h}$. 由于 $c$ 和 $\hat{h}$ 都是常数超参数,论文将它们合并为一个的阈值 $h$,其中 $h = (1 - \hat{h}) / \sqrt{c}$. 最终的SVIP停止准则:

$$\sqrt{H_q(x_{ h$$

在给定的前缀 $x_{

Justifying the Approximation Bound 为了确保这个估计下界是安全 ,它必须始终低于神谕下界。通过推导,这要求随机变量 $\gamma$ 必须满足 $\gamma \le 2c + 1$. n$\gamma$ 是一个 $\ge 1$ 的右偏随机变量。如果将其建模为 $\gamma = 1 + X$ (其中 $X \sim Gamma(\alpha, \beta)$) ,那么这个近似有效的概率 $P(\gamma \le 2c+1)$ 就可以被计算出来。

选择 $c$ (即选择 $h$) 是一个权衡:

  • $c$ 太小: $\gamma \le 2c+1$ 的概率变低,导致下界估计可能失效。
  • $c$ 太大: 下界 $1 - \sqrt{cH_q}$ 会变得过松,导致估计的接受率过低,过早停止起草,影响加速效率。

论文通过实验 (图4) 证明,只要 $h$ (即 $c$) 被恰当选择 (在图中设置为 0.18) ,这个估计下界在大多数情况下都能很好地工作。

Comparison between the actual acceptance  probability, the acceptance probability  lower bound, and the estimated lower  bound. Each position on the x-axis  corresponds to a token, which has been sorted according  to the actual acceptance probability.
Comparison between the actual acceptance probability, the acceptance probability lower bound, and the estimated lower bound. Each position on the x-axis corresponds to a token, which has been sorted according to the actual acceptance probability.

3 Experiments

论文主要对比了三种不同的草稿长度 (draft length) 策略:

  1. Constant (固定值):使用一个固定的草稿长度,实验中设为 5.
  2. Heuristic (启发式):Hugging Face transformers 库中实现的策略。其逻辑是:如果当前迭代中所有草稿词元都被接受,则下一轮草稿长度+2;否则-1。
  3. SVIP (本文方法):使用草稿模型的熵来动态决定何时停止起草.

评估指标

  • 主要指标加速比 (Speedup)。计算方式为:仅使用目标模型进行自回归解码所需的时间 / 使用推测解码 (SD) 所需的时间。
  • 辅助指标:平均接受的草稿长度 (Accepted draft lengths) 和草稿词元接受率 (Draft token accept rate) 。

实验 1:长文本生成 (Long-form Generation)

这部分实验在常规的长文本生成任务上验证 SVIP。

实验设置:

  • 基准 (Benchmark):MT-Bench。
  • 模型
    • 目标模型 (Target):Qwen2.5-14B 和 Qwen2.5-32B.
    • 草稿模型 (Draft):不同大小的 Qwen2.5 模型 (0.5B, 1.5B, 3B).
  • 上下文长度:最高测试到 8K (8192) 上下文。
  • 解码策略:使用采样 (Sampling) 并设置 temperature=1. (作者发现,若使用贪婪解码 (greedy decoding),模型在长文本生成中易陷入“重复幻觉”,导致熵极低和加速比被夸大,因此主实验采用采样) 。
  • SVIP 设置:熵阈值 $h$ 设为 0.3.

实验结果:

  1. SVIP 显著优于基线 (图 5)

    • 在所有的模型组合 (如 14B+0.5B, 32B+1.5B) 和所有上下文长度 (从 128 到 8192) 上,SVIP (红线) 的加速比都持续且显著地优于 “Constant 5” (蓝线) 和 “Heuristic” (绿线) 策略。
  2. SVIP 为什么更快? (图 6)

    • “Heuristic” 策略 (绿线) :倾向于生成非常长的草稿 (在 8K 上下文时平均长度接近 8) ,但其接受率很低 (约 60%),导致效率低下。
    • “SVIP” 策略 (红线) :当检测到高熵 (不确定性) 时会提前停止。因此,它生成的草稿更短 (平均约 2.5-3.0),但换来了极高的接受率 (在长上下文时接近 90%). 这证明了 SVIP 的加速来自于更高的效率,而非盲目生成长草稿。
  3. SVIP 完美拟合“神谕长度” (图 7b)

    • 论文分析了 (实际草稿长度 - 神谕草稿长度) 的差值 (Delta Draft Length) 。
    • 结果显示,“Constant” 和 “Heuristic” 策略都倾向于“过度生成” (over-generate) ,即生成的草稿远超目标模型能接受的长度。
    • 而 SVIP 的差值几乎完美地保持在 0 附近 (平均 delta < 0.5) ,说明它能精确地在目标模型即将拒绝时停止起草。
  4. SVIP 可增强 SOTA 方法 (表 2)

    • 为了证明 SVIP 的灵活性和正交性,作者将其应用在当时的 SOTA 推测解码系统 EAGLE-2 之上。
    • 在 Vicuna-7B @ 4K 上下文的测试中,EAGLE-2 本身的加速比为 1.24x,而 EAGLE-2 + SVIP 达到了 1.41x (相对提升 13.7%).
    • 证明 SVIP 是一个即插即用的模块,能为其他已优化的 SD 系统带来额外收益。

实验 2:长文本推理 (Long-form Reasoning)

这部分实验在更困难、输出更长的推理任务上验证 SVIP.

实验设置:

  • 基准 (Benchmark):MATH, AIME, 和 GPQA。这些都是推理密集型任务,平均生成长度从 1.3K 到 6.2K 不等。
  • 模型
    • 目标模型:QwQ-32B-Preview (一个推理专用模型) 。
    • 草稿模型:由于 QwQ 没有小模型,作者专门为其蒸馏训练了一个 1.5B 的草稿模型。

实验结果 (表 3):

  • SVIP 在推理任务上优势巨大:SVIP 在所有推理基准上均大幅超越基线。
  • 平均加速比 (Avg)
    • SVIP: 1.71x
    • Constant: 1.49x
    • Heuristics: 1.28x
  • 在最长的 AIME 任务上 (平均 6.2K 长度)
    • SVIP: 1.77x
    • Constant: 1.58x
    • Heuristics: 1.34x
  • 分析 (表 4 和 图 8)
    • 分析表明,SVIP 的行为与实验 1 一致:它实现了与 “Constant” 策略相似的平均草稿长度,但是接受率高得多
    • 图 8 的个例分析显示,在推理过程中,SVIP 提议的草稿长度剧烈振荡 (从接近 0 到 35 以上) ,这再次凸显了固定长度策略的局限性,以及 SVIP 动态性的必要性。
    • 表 4 验证了 SVIP 的动机:在 QwQ 模型中,熵很高的词元 (如 “Alright”) 接受率确实很低 (0.22) ,而熵很低的词元 (如 “ponents”) 接受率则为 1.00.