#21562 [CI] Relax several thresholds in flaky CIs

原始 PR 作者 Fridge003 合并时间 2026-03-28 04:16 文件变更 3 提交数 1 评论 3 代码增减 +9 / -9

执行摘要

放宽 CI 测试阈值以减少不稳定性，涉及 LoRA MoE 和 DeepSeek 量化测试。

根据PR标题'[CI] Relax several thresholds in flaky CIs'和修改内容，动机是放宽不稳定的CI测试阈值，以减少CI失败率，提升持续集成流程的稳定性。

此PR适合快速浏览以了解CI调整；工程师可关注bot建议的重构机会，在未来PR中优化测试代码结构。

讨论亮点

review评论来自gemini-code-assist[bot]，建议将硬编码的epsilon值和阈值定义为模块级常量，并重构重复的测试逻辑以提升可维护性。没有人类评论，因此讨论未涉及争议或决策，建议未在本PR中采纳。

实现拆解

修改了三个测试文件：

1) 在LoRA MoE测试中，将logprob差异的epsilon值从1e-4增加到2e-4；
2) 在DeepSeek V3 FP4模型的GSM8K测试中，将问题数和并行度从1319减少到500，精度阈值从0.935降低到0.93；
3) 在DeepSeek V3 FP4 MTP测试中，精度阈值从0.94降低到0.93。

文件	模块	状态	重要度
`test/registered/lora/test_lora_moe_vllm_sgl_logprob_diff.py`	lora	modified	4.0
`test/registered/quant/test_deepseek_v32_fp4_4gpu.py`	quant	modified	4.0
`test/registered/quant/test_deepseek_v32_fp4_mtp_4gpu.py`	quant	modified	4.0

关键符号

test_sglang_moe_parity_strict test_a_gsm8k

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

代码重构和常量化建议 设计

gemini-code-assist[bot] 建议将硬编码的 epsilon 值和阈值定义为模块级常量，并重构重复的测试逻辑（如 test_a_gsm8k 方法）以提升可维护性。

结论：建议未在本 PR 中采纳，未引发进一步讨论。 · pending

风险与影响

风险包括：降低精度阈值可能掩盖模型性能退化，导致测试不够严格；减少测试问题数量可能降低覆盖率；重复代码未重构可能增加未来维护成本。

对最终用户无直接影响；对CI系统，减少不稳定性，提高构建成功率，但可能降低测试质量；对开发团队，简化CI流程，但需监控测试有效性以防止性能回归。

降低测试严格性重复代码维护风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

#21562 [CI] Relax several thresholds in flaky CIs

执行摘要

放宽 CI 测试阈值以减少不稳定性，涉及 LoRA MoE 和 DeepSeek 量化测试。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

21485：删除冗余DeepSeek V3 FP4测试，同为优化CI负担。

21516：调整测试超时，类似CI稳定性改进。

21547：注册测试文件，涉及测试基础设施调整。

参与讨论