#6660 [Optimization] enable trtllm_all_reduce fusion kernel in glm model
作者 BingooYang · 合并时间 2026-04-16 14:10
为 GLM 模型接入 FlashInfer 的 trtllm_allreduce_fusion 融合算子,优化分布式推理性能。
建议精读此 PR,重点关注融合算子的设计实现(如 `flashinfer_comm_fusion.py` 中的 workspace 管理)、prefix 检查机制如何与模型组网集成,以及 review 中讨论的 fallback 处理权衡。
参与讨论