#39121 [ROCm] Use quant_dtype in per_token_quant instead of hardcoded FP8
原始 PR · 作者 Bortlesboat · 合并时间 2026-04-30 04:46
修复 ROCm per_token_quant 硬编码 FP8 的 bug
该 PR 改动简单清晰,值得快速合并。对于关注 ROCm 量化栈的开发者,可关注后续是否真正启用 int8 路径以及是否在 fake 中添加断言。其他开发者可忽略。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 Bortlesboat · 合并时间 2026-04-30 04:46
修复 ROCm per_token_quant 硬编码 FP8 的 bug
该 PR 改动简单清晰,值得快速合并。对于关注 ROCm 量化栈的开发者,可关注后续是否真正启用 int8 路径以及是否在 fake 中添加断言。其他开发者可忽略。
原始 PR · 作者 chaunceyjiang · 合并时间 2026-04-30 03:15
IndexCache用于DSv3.2稀疏注意力优化
该 PR 设计精简、实现清晰,是典型的“小改动大收益”案例。建议阅读 `mla.py` 中 `skip_topk` 的判断逻辑以及 `deepseek_v2.py` 中基于 layer ID 的调度决策,可作为模型侧 Cache 优化的参考范式。
原始 PR · 作者 laithsakka · 合并时间 2026-04-30 02:32
用 shape_id 替代 shape_invariants 简化动态形状声明
值得细读 `vllm/compilation/decorators.py` 中的版本检测和类型扩展设计,以及模型文件中的简洁性改进。建议确认 `vllm/config/vllm.py` 中 `return False` 是否已被正确移除或说明,并推动其他模型完成迁移。
移除 LoRA 加载警告循环修复 Nemotron Super 超时
该 PR 值得精读,展示了‘性能瓶颈往往来自看似无害的日志循环’的典型优化案例。作者的决策(移除非功能必需的循环)虽简单但有效,适合作为性能优化的借鉴。同时,讨论中关于优化方案的权衡也值得参考。
原始 PR · 作者 DarkLight1337 · 合并时间 2026-04-30 00:48
启用 NVIDIA Thor SM110 的 FP8 支持
此 PR 值得快速合并,因为它解决了阻塞 Thor 用户的关键启动问题。设计上采用范围检查而非逐个架构添加的做法,降低了后续新架构的维护成本。建议尽快跟进 Python 端 capability 检查的更新(相关文件:`vllm/v1/attention/backends/mla/cutlass_mla.py`)。
改进大对象未缓存时的日志
虽然逻辑合理且维护者已 approve,但需确认 `logger.warning_once` 在传异常对象时不会崩溃。建议在合并后观察生产环境是否出现 `TypeError` 异常上报。
原始 PR · 作者 Terrencezzj · 合并时间 2026-04-29 23:54
新增 Cohere MoE 模型支持,含自定义路由 SigmoidRenorm
建议阅读该 PR 以理解 Cohere MoE 的实现方式,特别是自定义路由函数的设计和枚举扩展模式。对于使用 Cohere MoE 的用户,等待模型权重发布后再进行验证。注意审查残差连接和 RoPE 的实现是否符合预期。
修复内存缓存命中时编译时间未上报
值得精读此 PR,它是一个教科书级的微小修复:问题定位精准、改动最小、理由充分。对于理解 vLLM 编译后端的内存缓存机制和日志上报逻辑有很好的参考价值。
参与讨论