修复Qwen3.5推理中工具调用被隐式丢弃的问题
该PR修复了真实用户场景中的工具调用丢失问题,代码实现清晰、测试充分,建议合并。设计上值得关注的是:通过反向遍历序列并排除配对标记,巧妙区分了模型输出与提示模板中的相同标记。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复Qwen3.5推理中工具调用被隐式丢弃的问题
该PR修复了真实用户场景中的工具调用丢失问题,代码实现清晰、测试充分,建议合并。设计上值得关注的是:通过反向遍历序列并排除配对标记,巧妙区分了模型输出与提示模板中的相同标记。
原始 PR · 作者 benchislett · 合并时间 2026-04-24 08:48
统一 V1 和 V2 合成拒绝采样接受率配置
建议仔细阅读 `vllm/config/speculative.py` 中的配置解析和校验逻辑(最小方差调度设计简洁),以及 Triton kernel 的改动。对于自行实现推测解码的开发者,`unconditional_to_conditional_rates` 转换函数值得复用。PR 整体设计合理,测试覆盖完整,应批准合并。
避免 GPU→CPU 同步,引入 seq_lens_cpu_upper_bound
此 PR 值得精读,尤其是从事 speculative decoding 或 attention 后端开发的工程师。设计决策:用 CPU 计算的上界替代 GPU 张量访问,是一种典型的异步优化模式。建议关注 eagle.py 中减法操作的实现,确认其无同步。
移除 Async EPLB 中未使用的 asyncio 基础设施
建议快速合并。这是一次干净的重构,降低了代码复杂度,便于后续维护。值得关注的是通过移除 asyncio 并保留显式同步点来保持正确性的模式。
将MoE score correction bias类型转换移到模型构建时,消除每次前向的冗余GPU kernel
值得精读。该PR展示了如何通过将运行时dtype转换前移到模型构建时间来消除冗余kernel调用,是典型的性能优化模式。注意`set_out_dtype`的调用顺序与预转换的依赖关系,以及选择在具体模型中操作而非通用层的原因。review中关于`nn.Parameter.data`直接修改和后续类型转换的讨论也有参考价值。
原始 PR · 作者 Jackmin801 · 合并时间 2026-04-24 08:00
将 MoE 剩余 PrepareAndFinalize 文件移至独立子目录
建议合入,此重构提升了代码可维护性。后续可考虑解决 review 中提出的 in-place 修改问题,但非阻塞。
原始 PR · 作者 sducouedic · 合并时间 2026-04-24 06:48
为 bench serve 可视化参数添加文档
建议合并,文档补全对用户友好。参数解析方式的变化(逗号分隔)是合理的改进,但应确保在发布说明中提及此 breaking change。代码改动量小且经过评审,正确性有保障。
原始 PR · 作者 MatthewBonanni · 合并时间 2026-04-24 06:28
将 SpecDecodeBaseProposer 从 eagle.py 移入独立文件
建议架构师和推测解码相关开发者精读,重点关注基类的设计结构和审查中提出的设计问题。本 PR 展示了纯代码重构的典型流程(git mv + 导入调整 + 测试同步),可作为类似重构的参考范例。
参与讨论