执行摘要
启用 ROCm 上的 fused SiLU+Mul 块量化内核,支持 AMD GPU。
PR body中提到:‘Another follow up for #32996 This time properly enabling the new kernel on ROCm instead of guarding Include path changes are needed because the hipify script would ignore absolute include paths and multiple slightly different versions of the same header would end up being included, causing symbol redefinition errors. Setting the device index globally in the test solves the IMA error from torch on ROCm’。这解释了为修复hipify脚本问题和ROCm上torch的IMA错误而进行此变更。
对于从事ROCm支持、量化优化或内核开发的工程师,此PR值得精读,重点关注跨平台兼容性处理、包含路径调整策略以及测试平台无关化的设计决策。
Review中仅有一条评论来自gemini-code-assist[bot],指出在csrc/torch_bindings.cpp中,关于DeepSeek V3 GEMM的注释被错误地移动到了silu_and_mul_per_block_quant注册处,可能造成混淆。该评论建议将注释移回正确位置。从提交历史看,作者后续提交了‘Move comment back to where it belongs’,表明此问题已解决。无其他争议或未解决疑虑。
参与讨论