Prhub

#22910 ci: re-enable fp8 nightly benchmark configs

sgl-project/sglang · 作者 ishandhanani · 合并时间 2026-04-16 06:57

分析状态 已生成
文件变更 1提交数 1 · 评论 1
代码增减 +19 / -20
run-ci test

执行摘要

重新启用 GB200 FP8 夜间基准测试配置,恢复完整测试覆盖。

根据PR正文描述,这些FP8配置在PR #22899中被临时禁用,目的是为了隔离已知失败的FP4任务以测试AI日志分析器。现在日志分析器已经过端到端验证(能够自动提issue并生成报告),因此需要恢复完整的夜间测试覆盖。

该PR值得快速浏览以了解CI配置的恢复情况,重点关注FP8基准测试配置的完整性和正确性。对于负责CI维护的工程师,建议验证配置中的外部引用路径是否有效。

讨论亮点

该PR没有review评论,表明这是一个相对简单且无争议的基础设施恢复操作。

实现拆解

  1. 恢复FP8基准测试配置:在scripts/ci/slurm/nightly-configs.yaml文件中,将先前被注释掉的dsr1-fp8-gb200-dynamo-sglang配置块取消注释,恢复其完整定义。
  2. 配置内容:该配置定义了DeepSeek-R1-0528模型在GB200 runner上使用FP8精度和dynamo-sglang框架的基准测试,包括多节点、分离式架构支持,以及两个不同的序列长度配置(最大吞吐量和超高吞吐量)。
  3. 基础设施影响:此变更直接影响CI/CD流水线,确保夜间基准测试包含FP8配置,从而提供更全面的性能监控和回归检测。
文件 模块 状态 重要度
scripts/ci/slurm/nightly-configs.yaml CI 配置 modified 4.65

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

  1. 配置错误风险:如果恢复的配置中存在错误(如路径错误、参数不匹配),可能导致夜间基准测试失败。
  2. 资源消耗增加:重新启用FP8测试会增加CI运行时间和计算资源消耗。
  3. 依赖关系风险:配置中引用的外部recipe文件(如recipes/gb200-fp8/1k1k/max-tpt.yaml)如果发生变化,可能影响测试结果。
  1. 对CI系统的影响:夜间基准测试将重新包含FP8配置,提供更全面的性能数据覆盖,有助于检测FP8相关的性能回归。
  2. 对团队的影响:开发团队将获得更完整的基准测试报告,但需要关注可能增加的CI失败率。
  3. 对用户的影响:间接影响,确保FP8推理路径在持续集成中得到验证,提高系统稳定性。
配置依赖外部文件 可能增加 CI 资源消耗

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

PR 22910 分析报告

执行摘要

本PR恢复了先前为测试AI日志分析器而临时禁用的GB200 FP8夜间基准测试配置,确保CI系统恢复完整的测试覆盖。这是一个基础设施维护操作,直接影响夜间基准测试的配置范围,风险较低但需要关注配置正确性。

功能与动机

根据PR正文描述,这些FP8配置在PR #22899中被临时注释掉,目的是为了隔离已知失败的FP4任务以测试新引入的AI日志分析器。现在日志分析器已经通过端到端验证(能够自动提issue并生成报告),因此需要恢复完整的夜间测试覆盖,确保FP8推理路径在持续集成中得到持续监控。

实现拆解

1. 配置恢复

唯一的变更文件是scripts/ci/slurm/nightly-configs.yaml,该文件定义了夜间基准测试的各种配置。本PR将先前被注释掉的dsr1-fp8-gb200-dynamo-sglang配置块取消注释,使其重新生效。

2. 配置内容分析

恢复的配置定义了DeepSeek-R1-0528模型在GB200 runner上的FP8基准测试:

dsr1-fp8-gb200-dynamo-sglang:
  model: deepseek-ai/DeepSeek-R1-0528
  model-prefix: dsr1
  runner: gb200
  precision: fp8 # 使用FP8精度
  framework: dynamo-sglang # 使用dynamo-sglang框架
  multinode: true # 多节点测试
  disagg: true # 分离式架构支持
  seq-len-configs:
    - isl: 1024
      osl: 1024
      search-space:
        - conc-list: [1024, 2048, 4096, 6144] # 测试不同并发数
          config_file: recipes/gb200-fp8/1k1k/max-tpt.yaml # 最大吞吐量配置
    - conc-list: [4096]
      config_file: recipes/gb200-fp8/1k1k/ultra-tpt.yaml # 超高吞吐量配置

3. 基础设施影响

此变更直接影响CI/CD流水线,确保夜间基准测试包含FP8配置。配置中引用了外部recipe文件(位于srt-slurm仓库),这些文件定义了具体的测试参数和性能目标。

评论区精华

该PR没有review评论,表明这是一个相对简单且无争议的基础设施恢复操作,符合团队对CI配置变更的常规处理流程。

风险与影响

风险

  1. 配置错误:如果恢复的配置中存在路径错误或参数不匹配,可能导致夜间测试失败。
  2. 外部依赖:配置引用的外部recipe文件如果发生变化,可能影响测试结果的一致性。
  3. 资源消耗:重新启用FP8测试会增加CI运行时间和计算资源消耗。

影响

  1. CI系统:夜间基准测试将重新包含FP8配置,提供更全面的性能数据,有助于检测FP8相关的性能回归。
  2. 开发团队:获得更完整的基准测试报告,但需要关注可能增加的CI失败率。
  3. 系统稳定性:间接提高FP8推理路径的持续验证,增强系统整体稳定性。

关联脉络

本PR与PR #22899直接相关,后者在测试AI日志分析器时临时禁用了这些FP8配置。从近期历史PR看,该仓库持续优化CI基础设施,包括日志分析器(#22899、#22903、#22859)、基准测试配置(#22854)和代码质量工具(#22912)。本PR是这一系列基础设施改进的延续,体现了团队对CI可靠性和测试覆盖的重视。

参与讨论