Prhub

#24205 [AMD] fix moriep unittest failure

原始 PR 作者 billishyahao 合并时间 2026-05-01 14:36 文件变更 1 提交数 1 评论 1 代码增减 +2 / -0

执行摘要

禁用 SpecV2 以修复 AMD MoE RIP 测试

SpecV2 在 main 分支默认启用(PR #21062),导致 moriep 单元测试出现回归错误(参见 CI 日志链接)。本 PR 通过禁用 SpecV2 恢复之前的行为,作为临时修复。

建议合并此临时修复以恢复 CI 稳定性,并跟进后续的 SpecV2 + moriep 兼容性修复。

讨论亮点

无 review 评论。

实现拆解

test/registered/amd/test_moriep_small.py 文件的 TestMTPwithTBONormalTestMTPwithTBOLowLatency 两个测试类的 setUpClass 方法中,添加环境变量 SGLANG_ENABLE_SPEC_V2=false,以在启动服务器时禁用 SpecV2。仅新增 2 行代码,无其他修改。

文件 模块 状态 重要度
test/registered/amd/test_moriep_small.py 测试 modified 3.65

关键符号

setUpClass

关键源码片段

test/registered/amd/test_moriep_small.py test-coverage

唯一修改的文件,通过添加环境变量禁用 SpecV2 来修复测试失败。

# test/registered/amd/test_moriep_small.py
# 在 TestMTPwithTBONormal.setUpClass 中添加了第 403 行:
        env["MORI_SHMEM_MODE"] = "ISOLATION" # avoid out of symmetric heap memory
        env["SGLANG_ENABLE_SPEC_V2"] = "false" # 临时禁用 SpecV2 以修复回归错误# 在 TestMTPwithTBOLowLatency.setUpClass 中也添加了类似行:
        env["SGLANG_USE_AITER"] = "1"
        env["SGLANG_MORI_DISPATCH_DTYPE"] = "bf16"
        env["SGLANG_MORI_NUM_MAX_DISPATCH_TOKENS_PER_RANK"] = "4096"
        env["SGLANG_ENABLE_SPEC_V2"] = "false" # 临时禁用 SpecV2
        env["MORI_SHMEM_MODE"] = "ISOLATION"

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险较低,仅在测试环境中禁用 SpecV2,不影响生产环境。但该修复是临时性的,若后续跟进 PR 未及时合并,测试覆盖可能不完整。

仅影响 AMD moriep 单元测试的执行,使得测试能够通过 CI。对系统其他部分无影响。

临时修复 无生产环境影响

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论