禁用 DeepSeek 注意力投影的动态 MXFP4 量化并启用 AITER 调优 BF16 GEMM
建议阅读 Review 中的讨论,特别是关于避免添加环境变量的决策过程和性能基准的论证。该 PR 展示了如何通过实测数据驱动默认值变更,并保持灵活性。ROCm 相关开发者可关注 `is_tgemm_enabled` 的实现,以便类似场景复用。
A high-throughput and memory-efficient inference and serving engine for LLMs
禁用 DeepSeek 注意力投影的动态 MXFP4 量化并启用 AITER 调优 BF16 GEMM
建议阅读 Review 中的讨论,特别是关于避免添加环境变量的决策过程和性能基准的论证。该 PR 展示了如何通过实测数据驱动默认值变更,并保持灵活性。ROCm 相关开发者可关注 `is_tgemm_enabled` 的实现,以便类似场景复用。
原始 PR · 作者 roikoren755 · 合并时间 2026-04-30 05:59
修复 CUDAGraph 捕获时 gc.collect 参数不匹配
建议立刻合入。该 PR 修复了一个明确的崩溃问题,修改极小且安全。对于使用嵌套 torch.compile 的模型(如 GB200 节点上的场景)至关重要。
原始 PR · 作者 puririshi98 · 合并时间 2026-04-30 05:56
新增 MNNVL AllToAll 分布式测试套件
对于关心分布式通信和 CI 基础设施的工程师,值得精读测试框架设计,尤其是多进程环境管理和错误传播模式。对于主要关注模型推理逻辑的开发者,可快速浏览了解覆盖范围即可。
两阶段暂停协议修复 DP 引擎死锁
值得精读的设计案例:如何在不增加同步开销的前提下利用现有 all-reduce 实现全局共识。建议关注两阶段协议的模式以及 `_pause_complete` 多态覆盖的设计。未来可考虑在 `pending_pause` 时触发即时 all-reduce 以降低暂停延迟。
修复 ROCm W4A4 MOE 错误使用仿真后端
该 PR 值得精读以了解 PR#39801 引入的回归及修复方式,展示了配置变更如何意外影响调度逻辑,以及 review 中如何通过追问缩小修复范围。对于维护 ROCm/量化栈的工程师有参考价值。
原始 PR · 作者 wangluochao902 · 合并时间 2026-04-30 05:20
优化推测解码中每步的numpy分配
值得合并。优化合理且验证充分,改动小,收益明确(尤其是 P99 延迟改善)。Review 中已解决所有疑虑。建议工程师关注类似的 per-step 临时分配模式,特别是在 decode 热路径中。
跳过纯文本模式下 MM 处理器初始化与 warmup
**值得精读**。虽然只是一行改动,但它展示了如何利用 registry 层统一的条件判断来避免重复实现,以及通过精确的 API 替代宽泛的布尔标志。对于理解 vLLM 的多模态初始化流程和 `multimodal_config` 的设计有参考价值。
BFCL评估脚本默认使用贪婪解码
该 PR 简单直接,无需深入审查。但可注意文件参数索引的调整(原第 6 个参数 output_dir 变为第 7 个),确保兼容性。
参与讨论