Prhub

vllm-project/vllm · 标签视图

标签列表

聚合结果

cudagraph 相关 PR

2026-06-02
性能优化 重要性 8.35 洞察度 6.00

Profile vision encoder CUDA graph pool memory

此 PR 值得精读,尤其关注 `profile_cudagraph_memory` 中如何集成 encoder 部分以及 graph pool 的生命周期设计。它展示了在已有的 CUDA graph 框架中扩展新模块的典型模式:通过临时 manager 进行 profile,通过持久 manager 进行 runtime,并利用 graph pool 隔离。对多模态模型开发者和 CUDA graph 维护者有重要参考价值。

2026-06-01
2026-05-31

#44050 [MRV2] Support breakable CUDA graph

原始 PR · 作者 WoosukKwon · 合并时间 2026-05-31 00:40

功能 重要性 7.08 洞察度 5.00

MRV2 支持可中断 CUDA 图

本 PR 是 MRV2 CUDA graph 功能的重要扩展,值得关注其设计:通过 `run_pw_graph` 统一两种分段 CUDA graph 实现,降低调用方复杂度。建议 review 者重点关注 `cudagraph_mode.has_piecewise_cudagraphs()` 的语义是否正确覆盖了启用条件。

2026-05-30
缺陷修复 重要性 6.51 洞察度 6.00

修复 Gemma4 MTP TP>1 时 CUDA 非法内存访问

值得精读。该 PR 展示了 CUDA graph replay 场景下的经典问题:中间张量生命周期短于 graph 重放周期,导致非法内存访问。采用缓存 tensor 并确保 contiguous 的修复模式可作为团队内部处理类似问题的参考。

2026-05-29

#42288 Adjust design around encoder_cudagraph_forward

原始 PR · 作者 wdhongtw · 合并时间 2026-05-29 11:02

重构 重要性 7.52 洞察度 6.00

简化 encoder CUDA graph 接口,统一输入结构

值得精读。该 PR 展示了围绕“函数签名应与捕获图一致”这一核心原则进行抽象重构的过程,设计权衡清晰(分离 vs 合并 input/metadata)。对理解 vLLM 多模态 CUDA graph 机制和架构演进方向(RFC #38175)很有帮助,也揭示了如何通过接口调整支持非 GPU 后端。

性能优化 重要性 7.86 洞察度 6.00

优化 Qwen2.5-VL encoder CUDA graph 窗口序列上界,B200 性能提升 3x+

该 PR 值得精读,展示了在 CUDA graph replay 中处理变长输入的正确姿势,尤其是 `padding_logics` 设计模式体现了插件化思想。评审过程中对灵活性与显式性之间的权衡也值得关注。

2026-05-28
重构 重要性 8.27 洞察度 6.00

移除 DS V4 对 torch.compile 的依赖,改用可中断 CUDA 图

值得精读。本 PR 展示了如何通过手动融合 kernel 和利用 breakable CUDA graph 替换 torch.compile,是 vLLM 编译栈演进的重要一步。特别关注 `fused_mtp_input_rmsnorm.py` 中的 kernel 设计以及 `config.py` 中的自动启用策略。

2026-05-22

#43321 Correcting the mock classes for MM GC tests

原始 PR · 作者 wdhongtw · 合并时间 2026-05-22 15:21

缺陷修复 重要性 4.85 洞察度 3.00

修复 MM CUDA Graph 测试 mock 类缺失方法

可以快速合入。该 PR 是典型的测试配套修复,建议定期运行受影响的测试以确保 mock 与协议同步。关注 `SupportsEncoderCudaGraph` 协议的演进,避免再次出现类似不匹配。