执行摘要
修复 SM100 上 MLA prefill 默认后端错误,改回 TRT-LLM 以避免 Kimi-K2.5 输出问题。
根据 PR body,目的是修复 issue #36763,解决在 SM100 上 FA4 MLA prefill 对 Kimi-K2.5 模型造成不可用输出的问题。
建议技术管理者关注此 PR,因为它揭示了 MLA prefill 后端选择的脆弱性和配置命名问题。工程师应阅读相关代码块(如作者链接的 mla_attention.py)以理解后端选择逻辑,并关注未来接口清理工作(如 PR #32623)。
review 中主要讨论了配置标志的命名问题:gemini-code-assist[bot] 指出标志名称过于具体,建议重命名为更通用的名称以反映其通用 MLA prefill 后端目的。此外,mgoin 询问了 FA4 MLA prefill 的控制机制,作者回复当 TRT-LLM 未启用时会回退到 FA4,并提及 PR #32623 将清理此接口。命名问题未在本次 PR 中解决。
参与讨论