#24282 [CI] Fix nightly NV jobs cancelling each other via shared concurrency groups

原始 PR 作者 Kangyan-Zhou 合并时间 2026-05-03 12:53 文件变更 1 提交数 1 评论 1 代码增减 +0 / -48

执行摘要

修复夜间 CI 任务因共享并发组互相取消

夜间 CI 运行中，同一硬件系列的多个作业因共享 concurrency.group 在排队时互相取消（如 #25261510384 中 24 个 NVIDIA 作业被取消 18 个），导致测试覆盖率严重下降。

建议合并后观察一次夜间测试运行以确认修复效果；若需更严格的单硬件序列化，后续可通过 needs: 链实现。

讨论亮点

无 review 讨论，PR 由作者自行合并。

实现拆解

在 .github/workflows/nightly-test-nvidia.yml 中删除每个作业下的 concurrency 配置块（共 48 行），涉及 nightly-test-general-1-gpu-h100、nightly-test-kernel-1-gpu-h100、nightly-test-kernel-8-gpu-h200、nightly-test-general-4-gpu-h100、nightly-test-general-8-gpu-h200、nightly-test-general-8-gpu-h20、nightly-test-general-8-gpu-b200、nightly-test-text-accuracy-2-gpu-h100 等作业。
保留已有的 max-parallel: 2 和工作流级 concurrency（keyed on ref）以及依 runner label 稀缺性的自然排队机制。

文件	模块	状态	重要度
`.github/workflows/nightly-test-nvidia.yml`	CI 配置	modified	5.12

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

低风险：移除 concurrency 块后依赖 runner 稀缺性及 max-parallel 控制并发，若 runner 资源丰富时可能出现同一硬件家族多作业同时运行导致资源争抢，但现有 max-parallel: 2 限制了矩阵作业并发数，且 runner label 数量有限，因此风险可控。

直接影响 nightly CI 的稳定性：修复后所有 NVIDIA 类型作业均能按计划执行，不会被无意义取消。无用户可见影响，仅 CI 基础设施变更。

低风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

PR 分析报告：修复夜间 CI 作业互相取消问题

执行摘要

本 PR 修复了 nightly-test-nvidia.yml 中因各作业共享 concurrency.group 导致同一硬件系列多个作业互相取消的 bug。通过删除所有 per-job 的 concurrency 块，依赖 runner 标签稀缺性和 max-parallel 限制来自然序列化作业，恢复了夜间测试的完整覆盖率。

功能与动机

夜间 CI 运行中，每个硬件系列（h100、h200、h20、b200）的所有作业共享同一个 concurrency.group（如 nightly-hw-h100）。根据 GitHub Actions 文档，并发组只能保留一个待处理作业：当第二个作业排队时，前一个待处理作业会被取消。这导致大量作业在分配 runner 前就被取消，例如 #25261510384 中 24 个 NVIDIA 作业被取消了 18 个，且持续影响多个最近运行（#25239610196、#24944658760、#24866511893）。

实现拆解

定位问题：作者通过分析被取消作业的日志（started_at 和 completed_at 仅差 1 秒，runner_name 为空，steps_count 为 0）确认是并发组取消行为。
移除 per-job concurrency 块：在 .github/workflows/nightly-test-nvidia.yml 中删除所有作业下的 concurrency 配置（共 48 行），涉及 8 个作业定义。
保留已有防护：保留 max-parallel: 2（限制矩阵作业并发数）和工作流级 concurrency（keyed on ref），以及 runner label 稀缺性带来的自然排队。

由于变更为纯配置删除，无代码片段展示。

评论区精华

无 review 讨论，PR 由作者自行合并。

风险与影响

风险：低风险。若 runner 资源充裕，同一硬件家族可能同时运行多个作业导致资源争抢，但现有 max-parallel: 2 限制了矩阵作业并发，且 runner label 数量有限，因此风险可控。
影响：仅 CI 基础设施变更，无用户可见影响。修复后夜间测试的所有作业均能正常调度和执行，避免了因并发取消导致的测试覆盖率下降。

关联脉络

本 PR 回退了 #23314 中添加的 per-job concurrency 配置，同时保留了其引入的 max-parallel 和超时调整。
与 #24291（保持 CI 中的自定义 sgl-kernel wheel）、#24265（删除 --prerelease allow 提升 CI 稳定性）等近期 CI 基础设施改进 PR 同属提升 CI 可靠性的系列工作。

#24282 [CI] Fix nightly NV jobs cancelling each other via shared concurrency groups

执行摘要

修复夜间 CI 任务因共享并发组互相取消

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论