Prhub

#21562 [CI] Relax several thresholds in flaky CIs

原始 PR 作者 Fridge003 合并时间 2026-03-28 04:16 文件变更 3 提交数 1 评论 3 代码增减 +9 / -9

执行摘要

放宽 CI 测试阈值以减少不稳定性,涉及 LoRA MoE 和 DeepSeek 量化测试。

根据PR标题'[CI] Relax several thresholds in flaky CIs'和修改内容,动机是放宽不稳定的CI测试阈值,以减少CI失败率,提升持续集成流程的稳定性。

此PR适合快速浏览以了解CI调整;工程师可关注bot建议的重构机会,在未来PR中优化测试代码结构。

讨论亮点

review评论来自gemini-code-assist[bot],建议将硬编码的epsilon值和阈值定义为模块级常量,并重构重复的测试逻辑以提升可维护性。没有人类评论,因此讨论未涉及争议或决策,建议未在本PR中采纳。

实现拆解

修改了三个测试文件:

1) 在LoRA MoE测试中,将logprob差异的epsilon值从1e-4增加到2e-4;
2) 在DeepSeek V3 FP4模型的GSM8K测试中,将问题数和并行度从1319减少到500,精度阈值从0.935降低到0.93;
3) 在DeepSeek V3 FP4 MTP测试中,精度阈值从0.94降低到0.93。

文件 模块 状态 重要度
test/registered/lora/test_lora_moe_vllm_sgl_logprob_diff.py lora modified 4.0
test/registered/quant/test_deepseek_v32_fp4_4gpu.py quant modified 4.0
test/registered/quant/test_deepseek_v32_fp4_mtp_4gpu.py quant modified 4.0

关键符号

test_sglang_moe_parity_strict test_a_gsm8k

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

代码重构和常量化建议 设计

gemini-code-assist[bot] 建议将硬编码的 epsilon 值和阈值定义为模块级常量,并重构重复的测试逻辑(如 test_a_gsm8k 方法)以提升可维护性。

结论:建议未在本 PR 中采纳,未引发进一步讨论。 · pending

风险与影响

风险包括:降低精度阈值可能掩盖模型性能退化,导致测试不够严格;减少测试问题数量可能降低覆盖率;重复代码未重构可能增加未来维护成本。

对最终用户无直接影响;对CI系统,减少不稳定性,提高构建成功率,但可能降低测试质量;对开发团队,简化CI流程,但需监控测试有效性以防止性能回归。

降低测试严格性 重复代码维护风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论