#42497 [Perf] Wire silu_and_mul_per_block_quant into TritonFP8MoE (MiniMax-M2)
原始 PR · 作者 qianlihuang · 合并时间 2026-05-18 09:57
将 SiLU+Mul 与 FP8 块量化融合,提升 MiniMax-M2 MoE 性能
值得精读,尤其是条件融合的设计模式。虽然 review 中暴露了 block_shape 类型鲁棒性等细节问题,但整体思路清晰。建议后续开发者注意将 `self.block_shape` 可能为 None 或 tuple 的类型信息明确化,并考虑为 DeepGEMM E8M0 路径添加等效的 fused kernel 或统一量化接口。
参与讨论