大模型推理的核心瓶颈长期在于自回归解码的串行本质。投机解码(Speculative Decoding, SD)通过引入一个轻量级的草稿模型来预测后续 token,并交由目标模型并行验证,从而有效加速了推理过程。
过去两年多,投机解码(Speculative Decoding, SD)几乎成了业界加速 LLM 推理的标准手法。它的原理并不复杂:让一个参数量更小、跑得更快的“草稿模型”(draft model)先猜测目标大模型接下来要生成的若干 token,再由大模型在一次前向传播中并行验证这批猜测。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果