Prhub

#27419 fix test_qwen3_next_models flaky

原始 PR 作者 hanming-lu 合并时间 2026-06-06 14:26 文件变更 1 提交数 1 评论 8 代码增减 +4 / -4

执行摘要

调大 KL 散度阈值修复测试 flaky

修复测试 flaky:Qwen3-Next 模型在不同运行时下 KL 散度存在微小波动,原阈值 0.001 过于严格,导致 CI 中测试偶发失败。

变更简单直接,无需精读。可作为测试稳定性维护的参考案例。

讨论亮点

无 review 评论,合并者 ispobock 直接批准合并。PR 创建后 CI 多次 rerun 均通过,表明阈值调整有效消除了 flaky。

实现拆解

  1. test/registered/models_e2e/test_qwen3_next_models.py 中,将四个测试类(TestQwen3NextLazyExtraBufferTestQwen3NextLazyExtraBufferLargePageTestQwen3NextLazyExtraBufferAllocFailTestQwen3NextLazyExtraBufferLargePageAllocFail)的 kl_div_thres 属性从 0.001 修改为 0.002
  2. 其他配置(如模型名、gsm8k_accuracy_threscache_chunk_size、启动参数等)保持不变。
  3. 无任何源码或配置的修改,纯测试阈值松动。
文件 模块 状态 重要度
test/registered/models_e2e/test_qwen3_next_models.py 测试 modified 3.93

关键源码片段

test/registered/models_e2e/test_qwen3_next_models.py test-coverage

唯一的变更文件,修改了 KL 散度阈值以解决 flaky 测试。

# test/registered/models_e2e/test_qwen3_next_models.py
# 关键变更:将 kl_div_thres 从 0.001 调整为 0.002,
# 以容忍 Qwen3-Next 模型 KL 散度的微小波动,消除 CI 中的偶发失败。class TestQwen3NextLazyExtraBuffer(
    GSM8KMixin, KLDivergenceMixin, PrefixCacheBranchingMixin, DefaultServerBase
):
    model = QWEN3_NEXT_MODEL
    cache_chunk_size = 64
    gsm8k_accuracy_thres = 0.93
    kl_div_thres = 0.002 # 原为 0.001
    other_args = _make_args(page_size=1, track_interval=2)
​
​
class TestQwen3NextLazyExtraBufferLargePage(
    GSM8KMixin, KLDivergenceMixin, PrefixCacheBranchingMixin, DefaultServerBase
):
    model = QWEN3_NEXT_MODEL
    cache_chunk_size = 64
    gsm8k_accuracy_thres = 0.93
    kl_div_thres = 0.002 # 原为 0.001
    other_args = _make_args(page_size=2, track_interval=2)# 另外两个 skip 测试类也有相同的阈值调整

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险极低:放宽阈值 0.001 到 0.002 仅为 2 倍,不影响模型质量基准,且 gsm8k_accuracy_thres 保持不变(0.93),不会掩盖真实回归。

仅影响测试稳定性,对用户无任何影响,对系统无性能或功能影响。团队 CI 可靠性提升,减少人工 rerun 成本。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论