#37787 [Bugfix][ROCm][MoE] Fix mxfp4 oracle regressions from #37128

原始 PR 作者 AndreasKaratzas 合并时间 2026-03-25 08:17 文件变更 11 提交数 15 评论 40 代码增减 +69 / -15

执行摘要

修复 ROCm 平台上 MoE mxfp4 量化由 PR #37128 引入的回归问题，恢复 gpt-oss 功能。

PR body 中指出：“Fixes several issues introduced by #37128 that broke gpt-oss on ROCm。” 具体包括：gfx950 gate 丢失导致 CK 在 gfx942 上崩溃；对齐检查丢失导致模型如 gpt-oss-20b 出现 reshape 错误；hidden_pad 和 intermediate_pad 字段遗漏影响 rocm_aiter_ops.fused_moe() 调用。目的是恢复 CI 并通过测试。

建议工程师精读此 PR，重点关注 tensor 类型兼容性的设计决策（如使用 .shape 替代 .size()）和 backend 选择逻辑（如 gfx950 gate 和对齐检查）。对于 ROCm 团队，需注意 padding 处理的临时性，并监控相关后续 PR。

讨论亮点

review 中的核心讨论包括：

矛盾点：gemini-code-assist[bot] 指出 PR 描述称“启用 mxfp4 LoRA on ROCm”，但代码仍抛出 NotImplementedError。经讨论，错误消息被改为平台无关，但 LoRA 功能未启用。
tensor API 变更：jeejeelee 询问 .size() 到 .shape 的变更原因，AndreasKaratzas 解释因 #37128 引入了 triton_kernels.tensor.Tensor 类型，缺少 .size() 方法，需用 .shape 保持兼容。
padding 处理：Rohan138 建议修改 padding 计算和将 gfx950 检查移到 _supports_quant_scheme，以避免 is_supported_config 在 padding 前被调用。AndreasKaratzas 采纳并调整。
长期解决方案：BowenBao 建议等待 PR #34285 以更清洁地解决 padding 问题，但作者因 CI 压力推进本 PR。

实现拆解

实现方案分为几个关键部分：

恢复 gfx950 gate：在 rocm_aiter_fused_moe.py 的 _supports_quant_scheme 中添加 on_gfx950() 检查，限制 CK backend 仅用于 gfx950 设备。
恢复对齐检查：在 oracle/mxfp4.py 的 AiterExperts 中添加 is_supported_config 方法，检查 CK_MXFP4_MOE_DIM_ALIGNMENT，使不满足对齐的模型回退到 Triton。
添加 padding 字段：在 FusedMoEQuantConfig 中新增 hidden_pad 和 intermediate_pad 字段，并在 mxfp4.py 和 rocm_aiter_fused_moe.py 中传递，以匹配 CK kernel 要求。
修复 tensor API 兼容性：将多个文件中的 .size() 和 .dim() 改为 .shape 和 len(.shape)，以兼容 triton_kernels.tensor.Tensor 类型（由 #37128 引入）。
其他调整：更新错误消息为平台无关、修复 CI 测试跳过逻辑。

文件	模块	状态	重要度
`vllm/model_executor/layers/fused_moe/oracle/mxfp4.py`	MoE 量化层	modified	8.0
`vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py`	MoE ROCm 后端	modified	7.0
`vllm/lora/layers/fused_moe.py`	LoRA 层	modified	6.0
`vllm/model_executor/layers/quantization/mxfp4.py`	mxfp4 量化	modified	6.0

关键符号

select_mxfp4_moe_backend rocm_aiter_fused_experts _get_lora_moe_configs make_mxfp4_moe_quant_config _supports_quant_scheme

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

PR 描述与代码矛盾 正确性

gemini-code-assist[bot] 指出 PR 描述称启用 LoRA，但代码仍抛出 NotImplementedError。

结论：错误消息被改为平台无关，但 LoRA 功能未实际启用。 · 已解决

tensor API 兼容性变更 设计

jeejeelee 提问 .size() 到 .shape 的变更原因，AndreasKaratzas 解释因 triton_kernels.tensor.Tensor 类型缺少 .size() 方法。

结论：变更为使用 .shape 以支持多种 tensor 类型，保持代码兼容性。 · 已解决

padding 处理和 backend 检查优化 设计

Rohan138 建议修改 padding 计算和将 gfx950 检查移到 _supports_quant_scheme，以避免 is_supported_config 在 padding 前调用。

结论：AndreasKaratzas 采纳建议，调整代码以更合理地集成检查。 · 已解决

风险与影响

技术风险包括：

padding 逻辑为临时方案：当前 padding 处理基于硬编码值，可能不完整，依赖后续 PR #34285 进行重构，存在未来维护风险。
LoRA 功能受限：mxfp4 LoRA 在 ROCm 上仍未支持，错误消息更新但内核问题未解决，可能影响用户使用。
tensor API 变更影响面：将 .size() 改为 .shape 可能影响其他代码路径，但已在多个文件中统一修复，回归风险较低。
backend 选择逻辑复杂：新增的 gfx950 检查和对齐逻辑增加了选择器复杂度，可能引入新的边界情况错误。

影响分析：

对用户：恢复 gpt-oss 模型在 ROCm 平台上的运行，特别是使用 mxfp4 量化的 MoE 模型，用户可正常进行推理和测试。
对系统：修复 CI 回归，确保 test_gpt_oss_speculative_reasoning_leakage 等测试通过，提升系统稳定性。
对团队：需关注 padding hack 的临时性，后续需跟进 PR #34285 以避免技术债务；同时，tensor API 变更提示了抽象层设计的重要性。

padding 逻辑为临时方案 LoRA 功能未完全恢复 tensor API 变更影响面

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本 PR 修复了由 PR #37128 重构引入的多个回归问题，主要影响 ROCm 平台上使用 mxfp4 量化的 MoE 模型（如 gpt-oss）。通过恢复 gfx950 gate、对齐检查和 padding 字段，确保 CK backend 正确选择并回退到 Triton，从而恢复 CI 测试通过和模型功能。这是一个重要的 bugfix，但涉及临时性 padding hack，需后续优化。

功能与动机

动机是解决 #37128 导致的 gpt-oss 在 ROCm 上的崩溃问题。具体问题包括：CK backend 在非 gfx950 设备（如 gfx942）上错误选择导致崩溃；模型维度未对齐 256 时出现 reshape 错误；以及 hidden_pad 和 intermediate_pad 字段丢失影响 ROCm aiter 内核调用。PR body 中明确表述：“Fixes several issues introduced by #37128 that broke gpt-oss on ROCm。”

实现拆解

实现按模块拆解如下：

backend 选择逻辑：在 oracle/mxfp4.py 的 select_mxfp4_moe_backend 中，恢复 is_supported_config 方法，添加对齐检查（CK_MXFP4_MOE_DIM_ALIGNMENT），使不满足条件的模型回退到 Triton。
ROCm 特定处理：在 rocm_aiter_fused_moe.py 中，修改 _supports_quant_scheme 以包含 on_gfx950() 检查，限制 CK backend 仅用于 gfx950；同时传递 hidden_pad 和 intermediate_pad 字段到 rocm_aiter_fused_experts。
padding 字段传递：在 mxfp4.py 的 create_weights 和 get_fused_moe_quant_config 中添加 padding 计算和字段，确保信息流向下游。
tensor API 兼容性：将多个文件中的 .size() 和 .dim() 改为 .shape 和 len(.shape)，例如在 fused_moe.py 和 gpt_oss_triton_kernels_moe.py 中，以支持 triton_kernels.tensor.Tensor 类型。
测试和 CI 调整：更新 .buildkite/test-amd.yaml 添加测试，并在 test_gptoss_tp.py 中添加平台检查跳过。

评论区精华

review 讨论中的精华点：

矛盾澄清：gemini-code-assist[bot] 指出：“PR description states: 'Enable mxfp4 LoRA on ROCm' ... However, this change still raises a NotImplementedError”。最终，错误消息被改为平台无关，但功能未启用，揭示了 PR 描述与实现的不一致。
技术解释：AndreasKaratzas 在回复 jeejeelee 时解释：“When mxfp4 quantization is active, w1/w2 can be triton_kernels.tensor.Tensor objects, not torch.Tensor. Calling .size(0) or .dim() on them would raise AttributeError。” 这突出了抽象层设计的重要性。
优化建议：Rohan138 建议：“if you just need to check for the current device being gfx950, you should instead override supports_current_device”。但作者回应需在 _supports_quant_scheme 中处理，以保持逻辑一致性。
长期视角：BowenBao 评论：“The size -> shape change and padding logic feel like quick(hacky) band-aids”，建议等待 PR #34285，但作者因 CI 压力推进，反映了工程权衡。

风险与影响

具体风险包括：padding 逻辑基于硬编码值，是临时方案，可能在未来引入维护负担；mxfp4 LoRA 在 ROCm 上仍不支持，限制功能扩展；tensor API 变更虽已修复，但需监控其他潜在影响。影响方面，本 PR 直接恢复 gpt-oss 模型在 ROCm 上的可用性，提升 CI 稳定性，但团队需跟进 #34285 以避免技术债务。

关联脉络

本 PR 与历史 PR 紧密关联：

PR #37128：是问题的根源，其重构引入了 gfx950 gate 丢失、对齐检查移除和 padding 字段遗漏，本 PR 旨在修复这些回归。
其他相关 PR：如 #37811、#37784、#37786 在 PR body 中被提及，可能涉及补充修复或 CI 调整，反映了跨 PR 的协作脉络。
演进趋势：从讨论中可见，仓库在 MoE 量化后端选择上持续优化，但面临平台特定性（如 ROCm gfx950）和抽象兼容性挑战，提示未来需更统一的设计。

#37787 [Bugfix][ROCm][MoE] Fix mxfp4 oracle regressions from #37128

执行摘要

修复 ROCm 平台上 MoE mxfp4 量化由 PR #37128 引入的回归问题，恢复 gpt-oss 功能。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论