#42913 Revert "[torch.compile] Add patch for fullgraph compilation" (#42686)
原始 PR · 作者 vllm-agent · 合并时间 2026-05-18 21:02
回滚引发 CI 失败的 torch.compile 补丁
可直接合并以快速恢复 CI。建议后续维护者关注 PyTorch 2.12 及以上版本是否确实修复该问题,并考虑是否有更安全的方式为 2.11 提供补丁。
标签列表
聚合结果
原始 PR · 作者 vllm-agent · 合并时间 2026-05-18 21:02
回滚引发 CI 失败的 torch.compile 补丁
可直接合并以快速恢复 CI。建议后续维护者关注 PyTorch 2.12 及以上版本是否确实修复该问题,并考虑是否有更安全的方式为 2.11 提供补丁。
原始 PR · 作者 ProExpertProg · 合并时间 2026-05-18 03:49
为torch.compile全图模式添加Inductor物化启发式补丁
值得阅读其成本模型的设计思路(简洁有效),但注意该PR已被回滚。建议直接使用PyTorch 2.12(已包含上游官方修复),或等待vllm团队重新评估后修复已知问题并重新合入。
原始 PR · 作者 ProExpertProg · 合并时间 2026-05-02 11:41
为vLLM IR引入maybe_inplace重载并移植fused_add_rms_norm
值得精读,尤其关注 `maybe_inplace` 的设计模式、函数化处理方案以及在多平台间保持语义一致性的做法。对编译器开发者有重要参考价值。
原始 PR · 作者 baonudesifeizhai · 合并时间 2026-05-01 13:08
FlashInfer FP8 GEMM AsyncTP 融合,提升 B200 性能
值得精读。该 PR 展示了如何在 `torch.compile` 框架下通过模式匹配实现计算-通信融合,并充分利用 PyTorch 的 SymmetricMemory 原语。设计决策(如使用 `VllmPatternReplacement`、避免多余抽象层)具有良好的可扩展性,可为未来类似优化提供参考。
原始 PR · 作者 laithsakka · 合并时间 2026-04-30 02:32
用 shape_id 替代 shape_invariants 简化动态形状声明
值得细读 `vllm/compilation/decorators.py` 中的版本检测和类型扩展设计,以及模型文件中的简洁性改进。建议确认 `vllm/config/vllm.py` 中 `return False` 是否已被正确移除或说明,并推动其他模型完成迁移。
修复 DeepSeek V4 在 Inductor 下的 AssertionError
值得阅读,展示了如何通过 custom op wrapper 绕过 Inductor 对 Triton kernel 的限制。对于其他遇到类似 inductor 错误的团队有参考价值。设计模式:使用 `direct_register_custom_op` 提供 opaque boundary。
修复 RMSNorm 测试中残差张量形状不匹配问题
值得精读,这是一个典型的内存越界导致 flaky 测试的案例。PR 作者提供了详细的复现脚本和根因分析,对理解 CUDA 内存分配和测试编写有借鉴意义。建议阅读 PR body 中的复现脚本以加深理解。
修复 PyTorch 2.12 下编译启动测试因版本检测和缓存行为变化导致的失败。
该 PR 值得快速浏览,重点关注版本检测的调整逻辑和测试预期的条件化设计。对于维护 vLLM 与 PyTorch 版本兼容性的团队,可学习如何优雅处理开发版与正式版版本号差异。无需深入阅读源码,但可注意 `is_torch_equal_or_newer` 函数的使用模式。