执行摘要
更新 TestQwen35PPAccuracy 跳过条件以解决 H100 和 AMD 上的精度回归导致的 CI 阻塞。
根据 PR body 描述,Qwen35 PP 支持在 PR #19670 中引入,但测试在 H100 和 AMD 上出现精度回归,阻塞 CI。由于该问题在 H20 上无法复现,需要时间定位原因,因此临时更新跳过条件以允许 CI 通过。
建议快速浏览以了解 CI 稳定性维护的临时策略,重点关注跳过条件变更背后的权衡决策。
Review 中无评论,因此没有讨论内容。
sgl-project/sglang · 作者 ShangmingCai · 合并时间 2026-03-25 14:28
根据 PR body 描述,Qwen35 PP 支持在 PR #19670 中引入,但测试在 H100 和 AMD 上出现精度回归,阻塞 CI。由于该问题在 H20 上无法复现,需要时间定位原因,因此临时更新跳过条件以允许 CI 通过。
建议快速浏览以了解 CI 稳定性维护的临时策略,重点关注跳过条件变更背后的权衡决策。
Review 中无评论,因此没有讨论内容。
本 PR 仅修改文件 test/registered/distributed/test_pp_single_node.py。关键变更是将 TestQwen35PPAccuracy 类的 unittest.skipIf 装饰器条件从 is_in_amd_ci() 更改为 is_in_ci(),从而在 CI 环境下跳过整个测试类,而非仅针对 AMD runner。
| 文件 | 模块 | 状态 | 重要度 |
|---|---|---|---|
test/registered/distributed/test_pp_single_node.py |
distributed testing | modified | 4.0 |
分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。
当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。
主要风险是临时跳过测试可能掩盖 Qwen35 PP 在 H100 和 AMD 上的实际精度问题,延迟根本原因的修复。无代码回归或性能风险,因为只修改了测试跳过逻辑。
允许 CI 测试通过,避免因单个测试失败导致的开发阻塞,提升团队效率。对用户无直接影响,因为这是测试层面的变更,但可能降低测试覆盖度直到问题解决。
当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。
本 PR 更新了 TestQwen35PPAccuracy 测试的跳过条件,从仅针对 AMD CI 扩展到所有 CI 环境,以临时解决 H100 和 AMD GPU 上的精度回归导致的 CI 阻塞,为调查根本原因提供时间。
Qwen35 PP 支持引入后,在 H100 和 AMD 硬件上出现精度问题,但无法在 H20 上复现。根据 PR body 描述,为允许 CI 测试通过,避免开发阻塞,决定暂时跳过该测试。
修改文件 test/registered/distributed/test_pp_single_node.py,将 @unittest.skipIf(is_in_amd_ci(), "PP consistency too flaky on AMD 4-GPU runners") 替换为 @unittest.skipIf(is_in_ci(), "Qwen35 PP consistency too flaky on H100 and AMD 4-GPU runners"),使测试在 CI 环境下全部跳过。
无 review 评论。
风险在于临时跳过可能掩盖精度问题,延迟修复;影响是 CI 稳定性提升,但测试覆盖暂时降低。
参与讨论