执行摘要
为 spec v2 重叠调度添加惩罚参数支持,修复验证时忽略惩罚的问题。
PR body指出spec v2 previously ignored frequency_penalty, presence_penalty, repetition_penalty, and logit_bias during verification,导致输出unpenalized。目标关闭issue #11762中的'penalty support'项,以支持重叠调度中的惩罚参数。
建议工程师精读此PR以理解推测解码中惩罚参数的设计实现,特别关注惩罚累积和应用的技术权衡,以及如何通过测试验证多种场景。
review评论由gemini-code-assist[bot]提出:1. prepare_for_decode中只累积最后一个接受token而非所有新接受token,可能导致频率/存在惩罚计数器不准确;2. sample中属性名acc_linear_penalties错误(应为acc_additive_penalties),且缩放惩罚未正确应用。从提交历史有'fix'提交,可能已修复这些问题,但未显示具体讨论结论。
参与讨论