Prhub

#26120 [diffusion] CI: disable torch compile in nightly comparison

原始 PR 作者 mickqian 合并时间 2026-05-22 23:36 文件变更 2 提交数 1 评论 1 代码增减 +11 / -13

执行摘要

禁用 diffusion 夜间对比中的 torch compile

夜间对比 CI 作业中 Wan A14B warmup 超时(1200s 限制),日志显示 torch/_inductor/select_algorithm.py 中 Triton 资源错误。移除 --enable-torch-compile 以规避问题并恢复对比稳定性。

可快速合入的维护性变更。建议关注后续是否有 torch compile 兼容性修复的 PR,届时可恢复此选项。

讨论亮点

无 review 讨论。

实现拆解

  1. 修改配置文件:在 scripts/ci/utils/diffusion/comparison_configs.json 中,对所有 SGLang 模型的 serve_args 字符串统一删除 --enable-torch-compile 选项(共 10 处),保留 --warmup 及其他参数。
  2. 更新超时注释:在 scripts/ci/utils/diffusion/run_comparison.py 中将 HEALTH_TIMEOUT 的注释从“40 min — FLUX.2-dev needs ~10 min download + torch.compile”改为“40 min — keep large model download/warmup headroom”,避免关于 torch compile 的误导。
文件 模块 状态 重要度
scripts/ci/utils/diffusion/comparison_configs.json CI 配置 modified 4.05
scripts/ci/utils/diffusion/run_comparison.py CI 脚本 modified 3.21

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

低风险。仅禁用了加速编译功能,不影响模型正确性;移除 torch.compile 后 warmup 时间缩短,但延迟性能可能略有下降。CI 对比仍能正常运行。

直接影响 diffusion 夜间对比 CI 的 SGLang 用例,避免因 torch compile 导致的超时失败。用户无感知。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论