#44365 [10b/n] Migrate custom all-reduce, DeepSeek V4 fused MLA, MiniMax reduce-RMS, and MXFP8 MoE to libtorch stable ABI
原始 PR · 作者 cleonard530 · 合并时间 2026-06-04 00:29
迁移四组 CUDA 内核到 libtorch stable ABI
值得精读,特别是 stable ABI 适配的模式(如使用 STD_TORCH_CHECK、STABLE_TORCH_LIBRARY_FRAGMENT 和 TORCH_BOX 宏)。对于贡献者,了解这些模式有助于参与后续迁移步骤。设计上保留 ROCm 专用 QuickReduce 在 legacy 是一个透明决策,需关注后续迁移计划。