Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

cudagraph 相关 PR

2026-04-14

#38061 [MM][Perf][CG] Support ViT full CUDA graph for Qwen3-VL video inference

作者 shen-shanshan · 合并时间 2026-04-14 16:49

功能 重要性 7.00 洞察度 6.00

扩展ViT全CUDA图支持到Qwen3-VL视频推理,提升多模态编码性能。

v1 multi-modality performance cudagraph qwen

建议技术管理者和工程师精读此PR,以理解CUDA图在多模态编码中的扩展设计。重点关注`get_input_modality`方法实现、`max_frames_per_batch`参数处理,以及review中讨论的权衡决策(如缓存移除和命名更改),这些对类似性能优化和协议设计具有借鉴意义。同时,关注后续PR中混合输入支持的演进。

#37588 [Model Runner V2] Add full cuda graph support for eagle prefill

作者 TheEpicDolphin · 合并时间 2026-04-14 07:01

功能 重要性 7.00 洞察度 6.00

为Eagle推测解码预填充阶段添加完整CUDA图支持以提升性能。

v1 nvidia cudagraph speculative-decoding performance

建议精读此PR,特别关注speculator.py中的prefill方法和cudagraph管理器的设计,学习如何扩展CUDA图支持到可变长度输入场景,以及性能权衡的决策。

2026-04-11

#39064 [Bugfix] Fix GDN FLA kernel crashes with NULL_BLOCK_ID=0 CUDA graph padding

作者 vibhavagarwal5 · 合并时间 2026-04-11 16:35

缺陷修复 重要性 6.00 洞察度 6.00

修复GDN FLA内核因CUDA图形填充从-1改为0导致的非法内存访问崩溃。

bugfix v1 nvidia kernel cudagraph

建议工程师精读以理解内核守卫设计与CUDA图形填充的交互,以及如何处理哨兵值(如NULL_BLOCK_ID)来防止状态损坏。这对于开发类似内核或维护相关代码有借鉴价值。

2026-04-06

#38997 [Bug] Fix Import paths for `encoder_cudagraph` modules

作者 Gregory-Pereira · 合并时间 2026-04-06 03:11

缺陷修复 重要性 4.00 洞察度 3.00

修复cudagraph_mm_encoder启用时因模块导入路径错误导致的ModuleNotFoundError。

bugfix v1 qwen cudagraph multi-modality

该PR值得快速浏览以了解cudagraph_mm_encoder功能的基础架构。重点关注: 1. encoder_cudagraph相关模块的组织结构。 2. Qwen3-VL模型如何实现SupportsEncoderCudaGraph协议。 3. 导入路径一致性在大型项目中的重要性。

2026-04-03

#36298 full cudagraph for flex-attn

作者 shunting314 · 合并时间 2026-04-03 12:15

性能优化 重要性 6.00 洞察度 6.00

为FlexAttention后端启用完整CUDA图支持,提升推理性能。

cudagraph performance v1 feature

建议技术管理者和工程师精读此PR,重点关注copy_to_persistent的实现和持久化缓冲区设计,这些决策在处理CUDA图动态张量时具有借鉴意义。同时,注意review中关于后端特定逻辑的讨论,可能提示未来架构改进方向。

2026-03-31

#36070 [Bugfix][DCP] Fix CUDA graph capture for Decode Context Parallelism

作者 sungsooha · 合并时间 2026-03-31 08:20

缺陷修复 重要性 6.00 洞察度 6.00

修复了Decode Context Parallelism在FULL CUDA图捕获模式下产生错误结果的问题,通过预分配持久化缓冲区确保张量地址稳定。

bugfix cudagraph v1

建议使用DCP和CUDA图的工程师精读此PR,关注张量地址稳定性管理和WorkspaceManager的使用,这些设计决策对类似CUDA图兼容性问题有借鉴价值。

#35431 [Bugfix] Use null block (0) for padded block table entries

作者 SandishKumarHN · 合并时间 2026-03-31 05:02

缺陷修复 重要性 6.00 洞察度 6.00

修复 SSM/Mamba 后端中填充块表条目的不一致性,使用块 0 替代 -1 对齐空块约定。

bugfix v1 cudagraph model

建议 SSM/Mamba 后端开发者精读此 PR,关注填充约定的统一设计决策,如区分 `PAD_SLOT_ID`(用于槽映射)和 `NULL_BLOCK_ID`(用于块表),以及修复 C++ 内核中的潜在索引错误。对于涉及内核优化或 CUDA 图集成的工程师,值得仔细检查变更逻辑以避免回归。

2026-03-30
缺陷修复 重要性 6.00 洞察度 6.00

修复Mamba模型CUDA图形内存不足时静默限制性能问题,改为抛出错误提示用户调整配置。

bugfix cudagraph v1 test performance

建议精读此PR以关注从静默限制到明确错误的设计权衡,特别留意`_check_and_update_cudagraph_mode`中`is_profiling`标志的引入和错误检查逻辑,这对理解CUDA图形在混合模型中的优化策略有重要参考价值。