Prhub

#20997 [NPU] [Diffusion] Update CI performance baseline for Wan2.2-T2V-A14B-Diffusers-w8a8

原始 PR 作者 OrangeRedeng 合并时间 2026-03-20 20:54 文件变更 1 提交数 1 评论 3 代码增减 +1 / -1

执行摘要

将 NPU 扩散模型 CI 性能基线 TextEncodingStage 时间从 301ms 提升至 1200ms,以解决 CI 测试偶发性超时失败。

PR body中明确指出,multimodal-gen-test-8-npu-a3测试有时因TextEncodingStage时间超过限制而失败,且该行为在本地机器上无法复现。作者推测某些CI服务器较慢,因此更新了时间限制以解决测试不稳定性。

该PR变更简单直接,适合快速浏览以了解CI基线调整策略。值得关注的是review中提出的关于性能测试方法论和根本原因分析的讨论,这对维护稳定的CI/CD流程有借鉴意义。

讨论亮点

gemini-code-assist[bot]在review中表达了担忧:虽然调整能解决立即的CI失败,但4倍的基线提升可能掩盖底层性能回归或CI运行器性能的显著波动。同时指出新限制1200.21毫秒与PR描述中显示的失败时间1198.02毫秒非常接近,可能导致持续的不稳定性。建议探究性能差异的根本原因,并考虑更灵活的测试方法。ping1jing2直接批准了变更,未参与讨论。

实现拆解

仅修改了单个JSON配置文件:python/sglang/multimodal_gen/test/server/ascend/perf_baselines_npu.json。将wan2_2_t2v_14b_w8a8_8npu配置中TextEncodingStage的基准时间从301.21毫秒增加到1200.21毫秒,增幅约4倍。

文件 模块 状态 重要度
python/sglang/multimodal_gen/test/server/ascend/perf_baselines_npu.json multimodal_gen/test modified 7.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

性能基线调整幅度与风险 性能

gemini-code-assist[bot] 指出 4 倍的基线提升可能掩盖性能回归,且新基线(1200.21ms)与观察到的失败时间(1198.02ms)过于接近,可能导致持续不稳定性。

结论:未达成明确结论,变更被批准但担忧未解决。 · unresolved

风险与影响

主要风险包括:

1) 性能回归被掩盖:大幅放宽基线可能使实际性能退化不被CI检测到,影响NPU扩散模型的质量监控。
2) 持续不稳定性:新基线仅比观察到的失败时间高约2毫秒,微小波动仍可能导致测试失败。
3) 缺乏根本原因分析:未解决CI服务器性能差异的根源,问题可能在其他测试或环境中重现。

直接影响:提高特定NPU扩散模型CI测试的通过率,减少因环境差异导致的失败。间接影响:可能降低对性能波动的敏感度,影响测试的预警能力。对用户和系统功能无直接影响,属于CI基础设施调整。

基线调整过大 未解决根本原因 测试敏感性降低

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论