#37968 [Revert] Remove CUDA torch fallbacks for fp8_mqa_logits/fp8_paged_mqa_logits_torch function
原始 PR · 作者 chaunceyjiang · 合并时间 2026-03-25 14:19
移除CUDA torch fallbacks,使deep_gemm成为FP8 MQA logits的硬性要求。
建议技术管理者关注此变更对部署环境的兼容性影响,工程师应精读此PR以理解硬件支持与兼容性的设计权衡,特别是review中关于deep_gemm检查的讨论,值得借鉴用于类似决策。
参与讨论