#35162 [Model Runner V2] Enable piecewise & full CUDA graphs for pipeline parallelism

原始 PR 作者 ZhanqiuHu 合并时间 2026-03-23 04:48 文件变更 2 提交数 11 评论 12 代码增减 +102 / -46

执行摘要

为 V2 模型 runner 的流水线并行添加 piecewise CUDA graph 支持，显著提升推理性能。

根据PR body描述，V2模型runner在流水线并行启用时无法使用CUDA graph捕获，导致回退到eager模式，性能受限。PR的目标是添加piecewise CUDA graph捕获支持以解决此问题，相关Issue #33960可能提供了进一步背景。PR作者提到"V2 model runner did not support CUDA graph capture with PP, falling back to eager mode. This PR adds piecewise CUDA graph capture for PP." 这明确了改进动机。

此PR值得精读，特别是对于从事CUDA graph优化或流水线并行开发的工程师。关注以下设计决策：

如何通过持久缓冲管理中间张量以支持图形重放。
num_reqs调整作为临时解决方案的权衡。
PP-aware的图形捕获实现细节，可作为处理分布式场景的范例。

讨论亮点

Review评论中核心讨论点：

中间张量键一致性：gemini-code-assist[bot]建议在model_runner.py中添加assertion以确保intermediate_tensors与self.intermediate_tensors的键匹配，避免潜在错误。此建议未直接回应或实现，但指出了潜在风险。
num_reqs调整逻辑：yewentao256询问为何在cudagraph_utils.py中设置num_reqs = 1，ZhanqiuHu解释为workaround以解决TRTLLM decode的uniform query length断言错误（flashinfer.py:1109）。调整被接受，但作者表示不确定是否为正确方法，可能需要后续改进。
全图形支持：WoosukKwon批准PR并提及将跟进FULL CUDA graph支持，暗示此PR是阶段性改进。

实现拆解

实现主要涉及两个文件修改：

vllm/v1/worker/gpu/model_runner.py：
- 添加持久中间张量缓冲self.intermediate_tensors，用于非首PP rank，确保图形重放时内存地址稳定。
- 更新capture_model函数以传入中间张量，替换eager-only的PP保护逻辑。
- 在execute_model中，添加从接收张量复制到缓冲的逻辑。
vllm/v1/worker/gpu/cudagraph_utils.py：
- 扩展capture函数以处理PP rank状态和中间张量输入。
- 添加num_reqs调整逻辑，确保num_tokens可被num_reqs整除，以应对TRTLLM decode的uniform query length断言。
- 更新_capture_full_graph以支持PP场景。

文件	模块	状态	重要度
`vllm/v1/worker/gpu/model_runner.py`	v1/model_runner	modified	8.0
`vllm/v1/worker/gpu/cudagraph_utils.py`	v1/cudagraph_utils	modified	8.0

关键符号

capture_model execute_model capture _capture_full_graph

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

中间张量键一致性检查 正确性

gemini-code-assist[bot] 建议在 model_runner.py 中添加 assertion 以确保 intermediate_tensors 的键与 self.intermediate_tensors 匹配，避免潜在错误。

结论：代码中未直接实现该 assertion，讨论指出了潜在风险，但未达成明确解决结论。 · unresolved

num_reqs 调整逻辑 设计

yewentao256 询问为何在 cudagraph_utils.py 中设置 num_reqs=1，ZhanqiuHu 解释为 workaround 以应对 TRTLLM decode 的 uniform query length 断言错误。

结论：调整被接受作为临时解决方案，但作者表示不确定是否为正确方法，可能需要后续改进。 · resolved with workaround

风险与影响

技术风险包括：

中间张量键不匹配：在model_runner.py的execute_model中，如果接收的中间张量与缓冲的键不一致，可能导致静默错误或KeyError。
num_reqs调整可能不完善：cudagraph_utils.py中的num_reqs调整逻辑是workaround，可能影响性能或正确性，尤其是在非均匀查询长度场景下。
PP下CUDA图形捕获稳定性：首次在V2模型runner中启用PP的CUDA graph支持，可能存在未覆盖的边缘情况，如内存对齐或跨rank同步问题。
测试覆盖不足：PR提供了测试计划，但变更涉及核心路径，需确保充分集成测试。

影响范围和程度：

用户影响：推理性能显著提升，吞吐量增加约66%，TTFT从231ms降至167ms，TPOT从17.5ms降至10.4ms，改善用户体验。
系统影响：使V2模型runner在PP下能从eager模式切换到CUDA graph模式，减少运行时开销，提升资源利用率，对齐V1基线性能。
团队影响：为V2模型runner添加关键功能，促进向新架构迁移；讨论中揭示的设计权衡（如中间张量处理）为后续优化提供参考。

中间张量键不匹配风险 num_reqs 调整可能引入性能或正确性问题 PP 下 CUDA 图形捕获的兼容性

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此PR为vllm-project/vllm仓库的V2模型runner添加了流水线并行下的piecewise CUDA graph支持，解决了此前PP场景只能使用eager模式导致的性能瓶颈。通过引入持久中间张量缓冲和PP-aware捕获逻辑，性能吞吐量提升约66%，TTFT和TPOT显著改善，使V2模型runner在PP下性能对齐V1基线。PR包含关键设计权衡，如num_reqs调整workaround，值得工程师精读以理解分布式CUDA graph优化。

功能与动机

为什么做：V2模型runner在流水线并行启用时无法使用CUDA graph捕获，只能回退到eager模式，限制了推理性能。PR作者在body中明确表示："V2 model runner did not support CUDA graph capture with PP, falling back to eager mode. This PR adds piecewise CUDA graph capture for PP." 关联Issue #33960可能提供了更多背景。目标是通过启用CUDA graph捕获来提升PP场景的性能，减少运行时开销。

实现拆解

关键改动模块：

model_runner.py：
- 添加持久self.intermediate_tensors缓冲，为非首PP rank预分配内存，确保图形重放时地址稳定。
- 更新capture_model函数，传入中间张量以支持捕获。
- 在execute_model中，实现从接收张量到缓冲的复制逻辑，示例代码片段：
```
n = input_batch.num_tokens_after_padding
for k, v in intermediate_tensors.tensors.items():
    self.intermediate_tensors[k][:n].copy_(v[:n])
```

cudagraph_utils.py：

扩展capture函数，添加PP rank状态判断和中间张量参数。

引入num_reqs调整逻辑，确保num_tokens可被整除，以避免TRTLLM decode断言错误，代码片段：

if num_reqs > 0 and num_tokens > num_reqs and num_tokens % num_reqs != 0:
    tokens_per_req = cdiv(num_tokens, num_reqs)
    num_reqs = num_tokens // tokens_per_req
    if num_tokens % num_reqs != 0:
        num_reqs = 1

评论区精华

Review讨论中聚焦于两个关键点：

中间张量键一致性：gemini-code-assist[bot]建议添加assertion以确保键匹配，但代码未实现，留下潜在风险。

"The code assumes that the keys in intermediate_tensors.tensors received from the previous pipeline stage are identical to the keys in the persistent self.intermediate_tensors.tensors... To improve robustness... it's safer to assert that the sets of keys are identical."
num_reqs调整设计：yewentao256询问调整原因，ZhanqiuHu解释为应对TRTLLM decode断言，但不确定是否为正确方法。

"With CUDA graph capture, I ran into AssertionError: TRTLLM decode requires uniform query lengths per request... So I added this workaround... but not sure if this is the right approach."
WoosukKwon批准PR并提及将跟进FULL graph支持，表明此PR是阶段性改进。

风险与影响

技术风险：

中间张量键不匹配可能导致运行时错误或静默数据损坏。
num_reqs调整是workaround，可能在某些场景下影响性能或引入非预期行为。
PP下CUDA graph捕获首次启用，需警惕内存对齐、跨rank同步等边缘情况。

影响分析：

性能提升：根据测试结果，吞吐量从13.89 req/s提升至23.07 req/s，TTFT从231ms降至167ms，TPOT从17.5ms降至10.4ms，显著改善用户体验和系统效率。
系统演进：为V2模型runner添加核心功能，促进向新架构迁移，团队可借鉴中间张量管理设计。

关联脉络

与历史PR的关系：

PR #34903被yewentao256在issue评论中提及，同为V2模型runner的CUDA graph支持PR，可能涉及full graph功能，可作为后续参考。
从近期历史PR看，仓库持续优化性能（如FP8 kernel、ROCm改进），此PR延续了性能提升趋势，聚焦于CUDA graph在分布式场景的应用。
整体上，此PR是V2模型runner演进中的关键一步，为流水线并行提供了高效的图形捕获方案，后续可能扩展至full graph支持。

#35162 [Model Runner V2] Enable piecewise & full CUDA graphs for pipeline parallelism

执行摘要

为 V2 模型 runner 的流水线并行添加 piecewise CUDA graph 支持，显著提升推理性能。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论