Prhub

vllm-project/vllm · 标签视图

标签列表

聚合结果

nvidia 相关 PR

2026-06-04

分离 speculator prefill CUDA graph 的 attention state

强烈建议精读本 PR,尤其是 `cudagraph_utils.py` 中的设计。它清晰地展示了如何处理 CUDA graph capture 中的 lazy initialization 问题,是一种可复用的模式。其他需要实现自定义 `CudaGraphManager` 的开发者应参考此模式。

迁移四组 CUDA 内核到 libtorch stable ABI

值得精读,特别是 stable ABI 适配的模式(如使用 STD_TORCH_CHECK、STABLE_TORCH_LIBRARY_FRAGMENT 和 TORCH_BOX 宏)。对于贡献者,了解这些模式有助于参与后续迁移步骤。设计上保留 ROCm 专用 QuickReduce 在 legacy 是一个透明决策,需关注后续迁移计划。

2026-06-03

#42472 [Model Runner V2] Use FlashInfer sampler

原始 PR · 作者 njhill · 合并时间 2026-06-03 22:59

性能优化 重要性 7.29 洞察度 6.00

引入 FlashInfer 采样加速 top-k/top-p 路径

对于关注 V1 模型运行器性能的开发者,该 PR 展示了如何在实际系统中集成第三方采样内核并设计安全的回退条件,值得精读。建议在合并后补充针对新旧路径的测试,确保条件分支无遗漏。

性能优化 重要性 8.24 洞察度 8.00

Triton内核加速CPU→GPU小块批量拷贝

建议精读。该PR展示了如何通过数据驱动的调优(阈值扫描、SM数量选择)将定制Triton内核应用于关键IO路径,并提供了详实的E2E基准验证。设计决策(如初始化时解析函数、缓冲复用)值得借鉴。

#44347 [Bugfix] Update TrtLLM MoE routing methods

原始 PR · 作者 wzhao18 · 合并时间 2026-06-03 17:56

缺陷修复 重要性 6.85 洞察度 5.00

修复 TrtLLM MoE 路由方法分类及 dtype 检查

建议尽快合入,以修复 CI 失败和模型兼容性问题。该 PR 展现了精细的路由方法分类调整,可精读 `get_routing_method_type` 的决策树逻辑,了解不同模型的路由模式。

#44388 [Doc] Update ViT CUDA graph interfaces

原始 PR · 作者 shen-shanshan · 合并时间 2026-06-03 16:21

文档 重要性 2.60 洞察度 3.00

更新 ViT CUDA 图文档,同步代码变更

此 PR 是纯粹的文档同步更新,对大多数工程师无需精读。但若您正在使用或开发 ViT CUDA 图系统,建议查看此文档以了解最新的 API 和流程。