#42660 [Bugfix] Fix incorrect chat template format for Qwen3.5
原始 PR · 作者 DarkLight1337 · 合并时间 2026-05-15 11:52
修复 Qwen3.5 聊天模板格式检测错误
建议精读。该 PR 虽小,但展示了 Jinja2 AST 解析的边界情况处理,对理解 vLLM 的聊天模板自动检测机制有参考价值。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 DarkLight1337 · 合并时间 2026-05-15 11:52
修复 Qwen3.5 聊天模板格式检测错误
建议精读。该 PR 虽小,但展示了 Jinja2 AST 解析的边界情况处理,对理解 vLLM 的聊天模板自动检测机制有参考价值。
原始 PR · 作者 ricky-chaoju · 合并时间 2026-05-15 08:35
升级 llguidance 依赖版本至 1.7
该 PR 是标准的依赖版本升级,技术含量低但影响面明确。建议相关团队(如结构化输出、vllm-metal)确认 llguidance 1.7.x 与现有功能的兼容性。**不值得精读**,但可作为依赖管理流程的参考。
原始 PR · 作者 chengyinie · 合并时间 2026-05-15 08:25
GPTQ 量化整合:重命名模块为 auto_gptq
建议阅读本 PR 的设计决策,特别是向后兼容策略(通过保留旧名称并使用 override),以及 min_capability 调整的考量。测试中移除了 2/3 比特覆盖,团队应考虑是否在文档中明确废弃说明。如果用户依赖 2/3 比特,应保留沟通渠道。
原始 PR · 作者 TheEpicDolphin · 合并时间 2026-05-15 07:16
修复 MRV2 CUDA Graph 捕获中 FlashMLA 延迟初始化问题
建议精读此 PR,它展示了 CUDA Graph 捕获中一个非常隐蔽的 bug 模式:warmup 阶段的状态修改可能影响 capture 阶段的行为。设计上,warmup 和 capture 应保持状态隔离,这个原则适用于其他类似场景。值得关注的是,修复方案没有增加额外复杂度,而是通过重新调用 factory 方法获得新状态,保持了原有架构的简洁性。
修复 DeepGemm FP8 MoE 遗漏 SwiGLU 截断限制
值得精读。展示了从模型量化配置到 Triton kernel 的完整参数传播链路,以及在融合操作中处理精度一致性的最佳实践。测试用例的设计(使用高斯分布确保 clamp 分支被触发)也为类似正确性修复提供了参考。
移除ROCm不支持的FP8测试用例并修复normalize条件
此PR为维护性清理,不值得精读。但可以关注ROCm FP8 AITER的支持边界以及fp8_utils中normalize条件的改进思路。
ROCm 上融合 RMSNormGated 与 FP8 分组量化提升性能
值得阅读该 PR 的实现,尤其是 `torch.fx` 级别的模式匹配集成方式、与 AITER 的协作模式以及 kernel 可用性检查的优雅回退。对计划支持类似融合优化的开发者有参考价值。设计决策中的折衷(如 head_dim 的硬编码、match_aiter_quant 的处理)和后续迁移到 vLLM IR 的规划也值得关注。
原始 PR · 作者 MatthewBonanni · 合并时间 2026-05-15 01:34
移除 MLA prefill 废弃参数,统一配置接口
本 PR 是一个经典的废弃清理范例,适合精读以了解如何有序移除配置项并同步测试和基准工具。同时关注 review 中关于 `is_lse_base_on_e` 的讨论,有助于理解注意力后端间 LSE 基数的差异。
参与讨论