Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

gpu 相关 PR

2026-03-31

#37221 [3/n] Migrate cutlass/scaled_mm_entry.cu torch stable ABI

作者 mikaylagawarecki · 合并时间 2026-03-31 02:20

重构 重要性 7.00 洞察度 6.00

迁移CUTLASS量化GEMM和MoE内核到PyTorch稳定ABI,提升ABI兼容性。

refactor quantization gpu

此PR值得技术管理者和核心工程师精读,因为它展示了大规模稳定ABI迁移的具体策略,包括文件组织、类型替换和构建配置调整。重点关注设计决策:如何平衡代码简化与命名冲突、如何处理预存在的不一致问题。对于类似迁移项目,可借鉴其渐进式提交(先移动后迁移)和review中讨论的风险缓解方法。

#38562 [Bugfix][MLA] Change default SM100 MLA prefill backend back to TRT-LLM

作者 MatthewBonanni · 合并时间 2026-03-31 00:51

缺陷修复 重要性 5.00 洞察度 4.00

修复 SM100 上 MLA prefill 默认后端错误,改回 TRT-LLM 以避免 Kimi-K2.5 输出问题。

bugfix model gpu

建议技术管理者关注此 PR,因为它揭示了 MLA prefill 后端选择的脆弱性和配置命名问题。工程师应阅读相关代码块(如作者链接的 mla_attention.py)以理解后端选择逻辑,并关注未来接口清理工作(如 PR #32623)。

2026-03-28

#31201 Add nvidia h800 moe config

作者 lengrongfu · 合并时间 2026-03-28 07:28

功能 重要性 5.00 洞察度 3.00

为NVIDIA H800和H100设备添加fused MoE内核配置文件,支持fp8_w8a8精度。

feature performance gpu fp8

对于关注GPU性能优化或使用NVIDIA H800/H100设备的工程师,建议快速浏览配置文件参数以了解优化细节,但无需深入分析代码逻辑。注意review中提到的配置潜在问题,可能在部署前需要验证。

#38126 [NVIDIA] Fix DGX Spark logic

作者 johnnynunez · 合并时间 2026-03-28 06:26

缺陷修复 重要性 6.00 洞察度 6.00

修复 DGX Spark 设备的 SM121 架构匹配逻辑,确保 NVFP4 等内核正确编译。

bugfix gpu test

该 PR 值得构建系统工程师精读,重点关注 `cuda_archs_loose_intersection` 函数的设计决策,如后缀匹配策略和跨版本兼容性处理。对于一般开发者,了解 CMake 架构守卫的更新模式即可。

2026-03-26

#38014 [CI] Add batch invariant test for b200

作者 yewentao256 · 合并时间 2026-03-26 23:54

基础设施 重要性 3.00 洞察度 3.00

在 CI 中为 b200 设备添加批不变性测试步骤。

ci test gpu

对于 CI 维护工程师,建议后续优化测试命令以避免冗余;对于其他工程师,此 PR 无需精读,除非涉及 CI 配置更改或批不变性测试。

#34549 [Misc] Optimized check to encapsulate both CUDA and ROCm platforms

作者 AndreasKaratzas · 合并时间 2026-03-26 09:43

重构 重要性 3.00 洞察度 3.00

使用 `is_cuda_alike()` 辅助方法统一检查 CUDA 和 ROCm 平台,提升代码可维护性。

refactor rocm gpu

建议快速浏览此 PR 以了解代码重构模式,但需注意 gemini-code-assist[bot] 提出的正确性建议,这可能揭示潜在的 UVA 内存安全问题,值得在后续代码审查中关注。

2026-03-25

#37970 [Kernel] Optimize SM120 CUTLASS blockwise FP8 GEMM

作者 Nekofish-L · 合并时间 2026-03-25 23:20

性能优化 重要性 6.00 洞察度 5.00

优化SM120 GPU上FP8 GEMM分块调度,提升解码性能。

performance quantization fp8 gpu

建议工程师精读此PR,特别是对CUDA kernel优化、CUTLASS调度和量化性能提升感兴趣的开发者。关注基于问题大小动态分派kernel的设计决策,以及性能测试的方法和结果。

缺陷修复 重要性 6.00 洞察度 5.00

修复CMake构建中丢失CUDA架构后缀的bug,避免SM12x设备上NVFP4推理产生NaN。

bugfix gpu

此PR值得精读,特别是对于负责构建系统和CUDA编译优化的工程师。关注点包括:正则表达式的修改如何保留后缀、架构检测的逻辑演变,以及从后续问题中学到的跨文件协调教训。建议结合PR 38126一起阅读,以理解完整的修复链条,并关注构建系统在其他PR中的演进。