Prhub

#21178 Temporarily disable flaky qwen3 cp test in CI

sgl-project/sglang · 作者 ShangmingCai · 合并时间 2026-03-23 12:13

分析状态 已生成
文件变更 1提交数 2 · 评论 1
代码增减 +5 / -2
ci debugging

执行摘要

临时禁用 CI 中不稳定的 Qwen3-30B 上下文并行测试。

根据 PR body 中链接的 CI 失败(https://github.com/sgl-project/sglang/actions/runs/23402689674/job/68108381141),Qwen3-30B 测试在 CUDA CI 中表现不稳定,可能导致 CI 阻塞,因此临时禁用以保持 CI 稳定。

该 PR 变更简单,主要用于 CI 维护,不值得精读;但如需了解 CI 测试禁用机制,可关注 register_cuda_ci 函数的用法。

讨论亮点

无实质性 review 讨论,只有 Fridge003 的批准评论且内容为空,表明变更被快速接受。

实现拆解

唯一改动在文件 test/registered/4-gpu-models/test_qwen3_30b.py 中,将 register_cuda_ci(est_time=300, suite="stage-c-test-4-gpu-h100") 修改为添加 disabled="Temporarily disable the flaky test." 参数,从而在 CI 注册中标记该测试为禁用。

文件 模块 状态 重要度
test/registered/4-gpu-models/test_qwen3_30b.py test modified 2.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

主要风险是测试覆盖减少,可能掩盖 Qwen3-30B 模型在上下文并行下的潜在问题。但由于是临时禁用,且 CI 失败可能源于环境不稳定性而非代码错误,风险相对较低。具体到文件 test/registered/4-gpu-models/test_qwen3_30b.py,禁用后该测试在 CI 中不会运行。

对用户无直接影响;对系统,CI 将更稳定,减少失败运行,但测试套件完整性受损;对团队,提高开发效率,避免因 flaky 测试导致的 CI 阻塞。影响范围仅限于 CUDA CI 的测试执行。

测试覆盖减少

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本 PR 临时禁用了 CUDA CI 中不稳定的 Qwen3-30B 上下文并行测试,以解决 CI 失败问题,确保 CI 流程稳定,但牺牲了测试覆盖。变更简单,被快速合并。

功能与动机

根据 CI 运行失败(https://github.com/sgl-project/sglang/actions/runs/23402689674/job/68108381141),Qwen3-30B 测试在 CUDA CI 中表现不稳定,可能导致 CI 阻塞。因此,通过临时禁用该测试来维护 CI 的可靠性,避免频繁失败影响开发流程。

实现拆解

唯一改动位于 test/registered/4-gpu-models/test_qwen3_30b.py 文件,具体变更如下:

  • 原代码
    python register_cuda_ci(est_time=300, suite="stage-c-test-4-gpu-h100")
  • 新代码
    python register_cuda_ci( est_time=300, suite="stage-c-test-4-gpu-h100", disabled="Temporarily disable the flaky test.", )
    通过在 register_cuda_ci 函数调用中添加 disabled 参数,该测试在 CI 中将被跳过。

评论区精华

无实质性讨论,只有 Fridge003 的批准评论(内容为空),表明变更被快速接受。

风险与影响

风险:禁用测试可能掩盖 Qwen3-30B 模型在上下文并行下的潜在问题,但鉴于测试不稳定可能源于环境因素,风险较低。具体在文件 test/registered/4-gpu-models/test_qwen3_30b.py 中,禁用后该测试不会执行,导致相关代码路径缺乏验证。
影响:对用户无直接影响;CI 将更稳定,减少失败运行;团队开发效率提升,但测试套件完整性受损。影响范围仅限于 CUDA CI 的特定测试执行。

关联脉络

本 PR 属于 CI 维护系列,与近期 PR 如 #21187(统一测试套件命名)、#21118(移除 Blackwell 环境变量)和 #21162(修复 NPU CI git 问题)相关,共同优化 CI 配置和稳定性,反映团队对持续集成流程的持续改进。

参与讨论