#37238 [Model Runner V2] Spec decode rejection sampler greedy support
作者 TheEpicDolphin · 合并时间 2026-03-19 06:59
为推测解码拒绝采样器添加贪婪采样支持,优化温度为零时的性能。
建议工程团队精读此PR,特别关注`_gather_draft_logits_and_target_argmax_kernel`和`_probabilistic_rejection_kernel`的设计,以及review中讨论的正确性问题。设计决策如本地argmax计算和贪婪路径隔离值得学习。
参与讨论