执行摘要
修复夜间 CI 任务因共享并发组互相取消
夜间 CI 运行中,同一硬件系列的多个作业因共享 concurrency.group 在排队时互相取消(如 #25261510384 中 24 个 NVIDIA 作业被取消 18 个),导致测试覆盖率严重下降。
建议合并后观察一次夜间测试运行以确认修复效果;若需更严格的单硬件序列化,后续可通过 needs: 链实现。
无 review 讨论,PR 由作者自行合并。
夜间 CI 运行中,同一硬件系列的多个作业因共享 concurrency.group 在排队时互相取消(如 #25261510384 中 24 个 NVIDIA 作业被取消 18 个),导致测试覆盖率严重下降。
建议合并后观察一次夜间测试运行以确认修复效果;若需更严格的单硬件序列化,后续可通过 needs: 链实现。
无 review 讨论,PR 由作者自行合并。
.github/workflows/nightly-test-nvidia.yml 中删除每个作业下的 concurrency 配置块(共 48 行),涉及 nightly-test-general-1-gpu-h100、nightly-test-kernel-1-gpu-h100、nightly-test-kernel-8-gpu-h200、nightly-test-general-4-gpu-h100、nightly-test-general-8-gpu-h200、nightly-test-general-8-gpu-h20、nightly-test-general-8-gpu-b200、nightly-test-text-accuracy-2-gpu-h100 等作业。 max-parallel: 2 和工作流级 concurrency(keyed on ref)以及依 runner label 稀缺性的自然排队机制。| 文件 | 模块 | 状态 | 重要度 |
|---|---|---|---|
.github/workflows/nightly-test-nvidia.yml |
CI 配置 | modified | 5.12 |
分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。
当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。
低风险:移除 concurrency 块后依赖 runner 稀缺性及 max-parallel 控制并发,若 runner 资源丰富时可能出现同一硬件家族多作业同时运行导致资源争抢,但现有 max-parallel: 2 限制了矩阵作业并发数,且 runner label 数量有限,因此风险可控。
直接影响 nightly CI 的稳定性:修复后所有 NVIDIA 类型作业均能按计划执行,不会被无意义取消。无用户可见影响,仅 CI 基础设施变更。
当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。
参与讨论