Prhub

#24105 relax the threshold in test_step3p5_flash_chain_mtp

原始 PR 作者 Qiaolin-Yu 合并时间 2026-04-30 07:53 文件变更 1 提交数 1 评论 1 代码增减 +1 / -1

执行摘要

放宽 step3.5 flash chain MTP 测试阈值

PR body 指出此变更用于修复 CI flaky 问题,具体引用 CI 运行链接:https://github.com/sgl-project/sglang/actions/runs/25086309626/job/73673927890?pr=23456,说明因阈值过紧导致测试不稳定。

可直接合并,无需精读。这是一个常规的 flaky 测试修复,值得注意的是一致性:同仓库近期有多个类似阈值调整 PR(如 PR#24026 修复参数缺失),但本 PR 仅为测试维护,无深层技术洞察。

讨论亮点

无 review 评论,提交仅一条 message 为 'upd',表明为快速修复。

实现拆解

  1. 修改文件 test/registered/8-gpu-models/test_step3p5_flash_chain_mtp.py 第 100 行,将 self.assertGreater(metrics["score"], 0.84) 改为 self.assertGreater(metrics["score"], 0.83)
  2. 仅此一处变更,+1/-1,无新增测试或逻辑改动。
文件 模块 状态 重要度
test/registered/8-gpu-models/test_step3p5_flash_chain_mtp.py 测试 modified 2.99

关键源码片段

test/registered/8-gpu-models/test_step3p5_flash_chain_mtp.py test-coverage

唯一变更文件,将 GSM8K 准确率断言阈值从 0.84 下调至 0.83。

# test_step3p5_flash_chain_mtp.py (partial)
        if is_in_ci():
            write_github_step_summary(
                f"### test_gsm8k (step-3.5-flash chain mtp)\n"
                f'{metrics["score"]=:.3f}\n'
                f"{avg_spec_accept_length=:.2f}\n"
            )
            # 阈值从 0.84 调整为 0.83,消除 CI flaky 失败
            self.assertGreater(metrics["score"], 0.83)
            self.assertGreater(avg_spec_accept_length, 2.6)

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

极小改动,仅调整测试断言阈值,不影响任何生产逻辑或其他测试。风险极低。

仅影响该测试在 CI 中的稳定性。放宽阈值后,测试通过概率提高,避免频繁重跑 CI 带来的资源浪费。对用户无影响。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论