Prhub

#22910 ci: re-enable fp8 nightly benchmark configs

原始 PR 作者 ishandhanani 合并时间 2026-04-16 06:57 文件变更 1 提交数 1 评论 1 代码增减 +19 / -20

执行摘要

重新启用 GB200 FP8 夜间基准测试配置,恢复完整测试覆盖。

根据PR正文描述,这些FP8配置在PR #22899中被临时禁用,目的是为了隔离已知失败的FP4任务以测试AI日志分析器。现在日志分析器已经过端到端验证(能够自动提issue并生成报告),因此需要恢复完整的夜间测试覆盖。

该PR值得快速浏览以了解CI配置的恢复情况,重点关注FP8基准测试配置的完整性和正确性。对于负责CI维护的工程师,建议验证配置中的外部引用路径是否有效。

讨论亮点

该PR没有review评论,表明这是一个相对简单且无争议的基础设施恢复操作。

实现拆解

  1. 恢复FP8基准测试配置:在scripts/ci/slurm/nightly-configs.yaml文件中,将先前被注释掉的dsr1-fp8-gb200-dynamo-sglang配置块取消注释,恢复其完整定义。
  2. 配置内容:该配置定义了DeepSeek-R1-0528模型在GB200 runner上使用FP8精度和dynamo-sglang框架的基准测试,包括多节点、分离式架构支持,以及两个不同的序列长度配置(最大吞吐量和超高吞吐量)。
  3. 基础设施影响:此变更直接影响CI/CD流水线,确保夜间基准测试包含FP8配置,从而提供更全面的性能监控和回归检测。
文件 模块 状态 重要度
scripts/ci/slurm/nightly-configs.yaml CI 配置 modified 4.65

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

  1. 配置错误风险:如果恢复的配置中存在错误(如路径错误、参数不匹配),可能导致夜间基准测试失败。
  2. 资源消耗增加:重新启用FP8测试会增加CI运行时间和计算资源消耗。
  3. 依赖关系风险:配置中引用的外部recipe文件(如recipes/gb200-fp8/1k1k/max-tpt.yaml)如果发生变化,可能影响测试结果。
  1. 对CI系统的影响:夜间基准测试将重新包含FP8配置,提供更全面的性能数据覆盖,有助于检测FP8相关的性能回归。
  2. 对团队的影响:开发团队将获得更完整的基准测试报告,但需要关注可能增加的CI失败率。
  3. 对用户的影响:间接影响,确保FP8推理路径在持续集成中得到验证,提高系统稳定性。
配置依赖外部文件 可能增加 CI 资源消耗

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论