Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

kernel 相关 PR

2026-04-18

#39844 [XPU] fix all_reduce all-zero accuracy issue under torch.compile

作者 chaojun-zhang · 合并时间 2026-04-18 10:33

缺陷修复 重要性 5.86 洞察度 6.00

修复 XPU 平台在 torch.compile 模式下 all_reduce 返回全零的精度问题。

xpu bugfix v1 kernel compilation

该 PR 值得精读,因为它揭示了 torch.compile 在优化 in-place 操作时可能导致的隐蔽精度问题,并展示了通过 out-of-place 操作规避编译器优化的实用技巧。关注点:条件克隆的逻辑设计(`torch.compiler.is_compiling()`)和类型提示的添加如何提升代码健壮性。

#39984 [XPU]fake impl for xpu fp8_gemm

作者 xinyu-intel · 合并时间 2026-04-18 08:53

功能 重要性 6.17 洞察度 4.00

为 XPU 平台添加 fp8_gemm 的假实现以支持 torch.compile。

xpu feature v1 quantization kernel

此 PR 值得关注其假实现的设计模式,但需注意形状处理可能存在的风险。建议阅读 `vllm/_xpu_ops.py` 文件,了解如何为自定义算子注册假实现以支持 torch.compile。

#37463 [Kernel] Add MXFP4 W4A4 CUTLASS MoE kernel for SM100

作者 mgoin · 合并时间 2026-04-18 07:42

功能 重要性 9.00 洞察度 6.00

为SM100 Blackwell设备添加MXFP4 W4A4 CUTLASS MoE内核,支持量化激活与权重的高效推理。

kernel quantization nvidia feature moe

该PR值得核心内核和框架工程师精读,以理解MXFP4量化方案在MoE中的实现细节。重点关注`cutlass_moe.py`中的`run_cutlass_moe_mxfp4`函数如何协调量化、计算与尺度处理,以及`compressed_tensors_moe_w4a4_mxfp4.py`中的后端自动选择设计,这些决策对系统扩展性和性能优化有重要影响。

#40171 [Kernel] [Helion] Force disable HOP path due to performance regression

作者 gmagogsfm · 合并时间 2026-04-18 05:36

缺陷修复 重要性 4.97 洞察度 3.00

强制禁用 Helion HOP 路径以规避性能回归问题。

kernel bugfix v1 performance

该 PR 值得快速浏览,重点关注其作为临时性能规避措施的设计决策。虽然变更简单,但揭示了团队在遇到性能回归时的应急处理模式:通过硬编码开关快速禁用问题路径,而非立即深入修复。建议关注后续相关 PR 以了解性能回归的根本修复。

2026-04-17

#40105 [Bugfix] Add Marlin kernel in block scaled mm kernel selection.

作者 maralbahari · 合并时间 2026-04-17 18:20

缺陷修复 重要性 6.12 洞察度 4.00

将 Marlin 内核加入 FP8 块缩放矩阵乘内核选择列表,修复 A100 等设备上 FP8 模型加载失败问题。

bugfix v1 quantization kernel

该 PR 值得精读,特别是内核选择逻辑的调整和 `issubclass` 检查的使用,展示了在量化内核调度中处理异构内核接口的常见模式。关注 `init_fp8_linear_kernel` 函数中条件分支的设计,以及类型注解的更新如何反映内核类型的演进。

#39458 [MLA] Optimize mla indexer prepare uniform decode for MTP > 1

作者 TheEpicDolphin · 合并时间 2026-04-17 07:27

性能优化 重要性 7.50 洞察度 6.00

优化MLA注意力索引器uniform decode路径,通过Triton kernel减少推测解码开销。

v1 performance attention kernel nvidia

建议精读此PR,特别关注Triton kernel的设计和`_prepare_decode_tensors`中的条件分支,这是性能优化的核心。对于从事注意力后端、推测解码或kernel优化的工程师,可学习如何针对uniform场景进行针对性优化。

2026-04-16

#39944 [Kernel][Helion] Fix inductor fusion of Helion HOP

作者 gmagogsfm · 合并时间 2026-04-16 19:41

缺陷修复 重要性 6.69 洞察度 6.00

修复Helion kernel在TorchInductor融合编译时的错误,通过委托给Helion的Dynamo handler。

rocm bugfix kernel

对于从事Helion集成或Torch编译优化的工程师,此PR值得精读,重点关注_register_vllm_helion_dynamo_variable函数中的委托逻辑设计决策。

2026-04-15

#39857 [XPU][MXFP4] add mxfp4 quant op for XPU

作者 zufangzhu · 合并时间 2026-04-15 20:28

功能 重要性 6.91 洞察度 5.00

为XPU平台添加MXFP4量化算子支持,扩展低精度推理能力。

xpu quantization feature v1 kernel

建议关注此PR作为XPU平台量化支持扩展的示例,但需注意其输入维度限制和fake实现不完整的问题。对于后续开发,应参考review建议将算子泛化为N-D支持并强化错误检查。