Prhub

#27335 6-5 nightly failed test case fix

原始 PR 作者 liuxianglong17 合并时间 2026-06-05 11:39 文件变更 3 提交数 1 评论 2 代码增减 +4 / -0

执行摘要

修复 Ascend NPU 夜间测试超时和 warning 问题

夜间测试(nightly)中,test_npu_deepep_auto_deepseek_v3_2_w8a8.py 因权重加载超时而失败,需延长 watchdog 超时时间;test_npu_deepep_low_latency_deepseek_v3_2_w8a8.pytest_npu_deepep_low_latency_qwen3_480b.py 因 transformers 版本升级输出大量兼容性警告,需压制日志以避免干扰测试输出。

该 PR 为常规维护性修复,无深度技术洞察,可快速合并。

讨论亮点

该 PR 无 review 评论,变更简单明确。

实现拆解

  1. test_npu_deepep_auto_deepseek_v3_2_w8a8.pyother_args 列表末尾添加 --watchdog-timeout900 两个元素,使服务端在权重加载时有更长的等待时间。
  2. test_npu_deepep_low_latency_deepseek_v3_2_w8a8.pyenv 字典中添加 "TRANSFORMERS_VERBOSITY": "error",将 transformers 日志级别设为 error,抑制兼容性警告。
  3. test_npu_deepep_low_latency_qwen3_480b.pyenv 字典中添加相同的环境变量,达到同样效果。
文件 模块 状态 重要度
test/registered/ascend/basic_function/parallel_strategy/expert_parallelism/test_npu_deepep_low_latency_deepseek_v3_2_w8a8.py 测试 modified 3.28
test/registered/ascend/basic_function/parallel_strategy/expert_parallelism/test_npu_deepep_low_latency_qwen3_480b.py 测试 modified 3.28
test/registered/ascend/basic_function/parallel_strategy/expert_parallelism/test_npu_deepep_auto_deepseek_v3_2_w8a8.py 测试 modified 3.25

关键源码片段

test/registered/ascend/basic_function/parallel_strategy/expert_parallelism/test_npu_deepep_low_latency_deepseek_v3_2_w8a8.py test-coverage

添加 `TRANSFORMERS_VERBOSITY=error` 环境变量以屏蔽 transformers 兼容性警告。

# 修改前:env 字典未设置 TRANSFORMERS_VERBOSITY,导致 transformers 升级后输出大量兼容性警告
# 修改后:env 字典新增以下条目
env={
    "PYTORCH_NPU_ALLOC_CONF": "expandable_segments:True",
    "STREAMS_PER_DEVICE": "32",
    "SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK": "128",
    "HCCL_BUFFSIZE": "2048",
    "HCCL_OP_EXPANSION_MODE": "AIV",
    "TASK_QUEUE_ENABLE": "0",
    "TRANSFORMERS_VERBOSITY": "error", # 新增:将 transformers 日志级别设为 error,抑制兼容性警告
    **os.environ,
}
test/registered/ascend/basic_function/parallel_strategy/expert_parallelism/test_npu_deepep_low_latency_qwen3_480b.py test-coverage

添加 `TRANSFORMERS_VERBOSITY=error` 环境变量以屏蔽 transformers 兼容性警告。

# 修改前:env 字典未设置 TRANSFORMERS_VERBOSITY,导致 transformers 升级后输出大量兼容性警告
# 修改后:env 字典新增以下条目
env={
    "PYTORCH_NPU_ALLOC_CONF": "expandable_segments:True",
    "SGLANG_DISAGGREGATION_BOOTSTRAP_TIMEOUT": "600",
    "HCCL_BUFFSIZE": "2100",
    "HCCL_OP_EXPANSION_MODE": "AIV",
    "TRANSFORMERS_VERBOSITY": "error", # 新增:抑制 transformers 兼容性警告
    **os.environ,
}
test/registered/ascend/basic_function/parallel_strategy/expert_parallelism/test_npu_deepep_auto_deepseek_v3_2_w8a8.py test-coverage

添加 `--watchdog-timeout 900` 参数以解决权重加载超时问题。

# 修改前:other_args 列表未设置 --watchdog-timeout,服务端可能因权重加载超时被 watchdog 杀死
# 修改后:在列表末尾添加 --watchdog-timeout 和 900 两个元素
other_args = [
    "--trust-remote-code",
    "--tp-size", "16",
    "--quantization", "modelslim",
    "--moe-a2a-backend", "deepep",
    "--deepep-mode", "auto",
    "--mem-fraction-static", 0.82,
    "--disable-cuda-graph",
    "--disable-radix-cache",
    "--context-length", 40960,
    "--max-prefill-tokens", 40960,
    "--max-total-tokens", 40960,
    "--watchdog-timeout", 900, # 新增:将 watchdog 超时设为 900 秒,避免权重加载耗时过长被杀死
]

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险极低。仅修改测试配置,不涉及生产代码。--watchdog-timeout 900 延长了超时时间,不会影响功能正确性;TRANSFORMERS_VERBOSITY=error 屏蔽的只是兼容性警告,不影响 transformers 实际行为。

影响范围仅限于三个 Ascend NPU 测试用例,使它们能稳定通过夜间测试。对系统其他部分无影响。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论