#20997 [NPU] [Diffusion] Update CI performance baseline for Wan2.2-T2V-A14B-Diffusers-w8a8

原始 PR 作者 OrangeRedeng 合并时间 2026-03-20 20:54 文件变更 1 提交数 1 评论 3 代码增减 +1 / -1

执行摘要

将 NPU 扩散模型 CI 性能基线 TextEncodingStage 时间从 301ms 提升至 1200ms，以解决 CI 测试偶发性超时失败。

PR body中明确指出，multimodal-gen-test-8-npu-a3测试有时因TextEncodingStage时间超过限制而失败，且该行为在本地机器上无法复现。作者推测某些CI服务器较慢，因此更新了时间限制以解决测试不稳定性。

该PR变更简单直接，适合快速浏览以了解CI基线调整策略。值得关注的是review中提出的关于性能测试方法论和根本原因分析的讨论，这对维护稳定的CI/CD流程有借鉴意义。

讨论亮点

gemini-code-assist[bot]在review中表达了担忧：虽然调整能解决立即的CI失败，但4倍的基线提升可能掩盖底层性能回归或CI运行器性能的显著波动。同时指出新限制1200.21毫秒与PR描述中显示的失败时间1198.02毫秒非常接近，可能导致持续的不稳定性。建议探究性能差异的根本原因，并考虑更灵活的测试方法。ping1jing2直接批准了变更，未参与讨论。

实现拆解

仅修改了单个JSON配置文件：python/sglang/multimodal_gen/test/server/ascend/perf_baselines_npu.json。将wan2_2_t2v_14b_w8a8_8npu配置中TextEncodingStage的基准时间从301.21毫秒增加到1200.21毫秒，增幅约4倍。

文件	模块	状态	重要度
`python/sglang/multimodal_gen/test/server/ascend/perf_baselines_npu.json`	multimodal_gen/test	modified	7.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

性能基线调整幅度与风险 性能

gemini-code-assist[bot] 指出 4 倍的基线提升可能掩盖性能回归，且新基线（1200.21ms）与观察到的失败时间（1198.02ms）过于接近，可能导致持续不稳定性。

结论：未达成明确结论，变更被批准但担忧未解决。 · unresolved

风险与影响

主要风险包括：

1) 性能回归被掩盖：大幅放宽基线可能使实际性能退化不被CI检测到，影响NPU扩散模型的质量监控。
2) 持续不稳定性：新基线仅比观察到的失败时间高约2毫秒，微小波动仍可能导致测试失败。
3) 缺乏根本原因分析：未解决CI服务器性能差异的根源，问题可能在其他测试或环境中重现。

直接影响：提高特定NPU扩散模型CI测试的通过率，减少因环境差异导致的失败。间接影响：可能降低对性能波动的敏感度，影响测试的预警能力。对用户和系统功能无直接影响，属于CI基础设施调整。

基线调整过大未解决根本原因测试敏感性降低

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

该PR将NPU扩散模型CI性能测试中TextEncodingStage的基准时间从301.21毫秒大幅提升至1200.21毫秒，旨在解决因CI服务器性能差异导致的偶发性测试超时失败。这是一个典型的CI基础设施调整，虽能立即提高测试通过率，但可能掩盖性能回归且未解决根本问题，建议结合review中的讨论关注长期测试策略。

功能与动机

问题背景：multimodal-gen-test-8-npu-a3测试中TextEncodingStage阶段有时超时失败，但在本地无法复现，推测某些CI服务器性能较慢。
解决目标：通过放宽性能基线，减少环境差异导致的测试不稳定性，提升CI流水线可靠性。
关键引用：PR body中说明“i just update time limit”，直接体现了以调整基线为快速解决方案的思路。

实现拆解

仅修改一个配置文件，具体变更如下：

文件路径	变更内容	影响
`python/sglang/multimodal_gen/test/server/ascend/perf_baselines_npu.json`	`"TextEncodingStage": 301.21` → `"TextEncodingStage": 1200.21`	将NPU上Wan2.2-T2V-A14B-Diffusers-w8a8模型的文本编码阶段基准时间提升约4倍

评论区精华

review中仅有的实质性讨论来自gemini-code-assist[bot]，要点包括：

“This increases the performance baseline by nearly 4x. While this will fix the immediate CI failures, such a large adjustment might mask underlying performance regressions or significant variability in CI runner performance.”

“The new limit of 1200.21 ms is also very close to the failing time of 1198.02 ms shown in the PR description, which might lead to continued flakiness.”

这些评论指出了调整策略的潜在风险：一是可能掩盖真实性能问题，二是新基线过于接近失败阈值，不稳定性可能持续。但讨论未深入，变更最终被批准。

风险与影响

性能回归风险：4倍的基线放宽可能使实际性能退化不被CI检测，影响NPU扩散模型的质量监控。
持续不稳定性：新基线仅比观察到的失败时间高约2毫秒，环境微小波动仍可能导致测试失败。
根本原因未解决：未探究CI服务器性能差异的根源，问题可能在其他测试或配置中重现。
影响范围：仅影响特定NPU扩散模型的CI测试通过标准，对用户功能和系统性能无直接影响。

关联脉络

近期相关PR：PR #22031同样调整多模态生成CI测试，但采用临时禁用策略而非修改基线，反映团队在应对CI不稳定性时的不同方法。
NPU性能演进：结合PR #19246（NPU优化GLM4.7）可见，NPU硬件上的性能优化和测试校准是持续主题，本PR属于测试基础设施的配套调整。
CI稳定性趋势：近期多个PR（如#22001、#22011）涉及CI工作流修复，表明团队正系统性提升CI可靠性，本PR是这一趋势中的具体实践。