执行摘要
调大 KL 散度阈值修复测试 flaky
修复测试 flaky:Qwen3-Next 模型在不同运行时下 KL 散度存在微小波动,原阈值 0.001 过于严格,导致 CI 中测试偶发失败。
变更简单直接,无需精读。可作为测试稳定性维护的参考案例。
无 review 评论,合并者 ispobock 直接批准合并。PR 创建后 CI 多次 rerun 均通过,表明阈值调整有效消除了 flaky。
修复测试 flaky:Qwen3-Next 模型在不同运行时下 KL 散度存在微小波动,原阈值 0.001 过于严格,导致 CI 中测试偶发失败。
变更简单直接,无需精读。可作为测试稳定性维护的参考案例。
无 review 评论,合并者 ispobock 直接批准合并。PR 创建后 CI 多次 rerun 均通过,表明阈值调整有效消除了 flaky。
test/registered/models_e2e/test_qwen3_next_models.py 中,将四个测试类(TestQwen3NextLazyExtraBuffer、TestQwen3NextLazyExtraBufferLargePage、TestQwen3NextLazyExtraBufferAllocFail、TestQwen3NextLazyExtraBufferLargePageAllocFail)的 kl_div_thres 属性从 0.001 修改为 0.002。gsm8k_accuracy_thres、cache_chunk_size、启动参数等)保持不变。| 文件 | 模块 | 状态 | 重要度 |
|---|---|---|---|
test/registered/models_e2e/test_qwen3_next_models.py |
测试 | modified | 3.93 |
test/registered/models_e2e/test_qwen3_next_models.py
test-coverage
唯一的变更文件,修改了 KL 散度阈值以解决 flaky 测试。
# test/registered/models_e2e/test_qwen3_next_models.py
# 关键变更:将 kl_div_thres 从 0.001 调整为 0.002,
# 以容忍 Qwen3-Next 模型 KL 散度的微小波动,消除 CI 中的偶发失败。
class TestQwen3NextLazyExtraBuffer(
GSM8KMixin, KLDivergenceMixin, PrefixCacheBranchingMixin, DefaultServerBase
):
model = QWEN3_NEXT_MODEL
cache_chunk_size = 64
gsm8k_accuracy_thres = 0.93
kl_div_thres = 0.002 # 原为 0.001
other_args = _make_args(page_size=1, track_interval=2)
class TestQwen3NextLazyExtraBufferLargePage(
GSM8KMixin, KLDivergenceMixin, PrefixCacheBranchingMixin, DefaultServerBase
):
model = QWEN3_NEXT_MODEL
cache_chunk_size = 64
gsm8k_accuracy_thres = 0.93
kl_div_thres = 0.002 # 原为 0.001
other_args = _make_args(page_size=2, track_interval=2)
# 另外两个 skip 测试类也有相同的阈值调整
当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。
风险极低:放宽阈值 0.001 到 0.002 仅为 2 倍,不影响模型质量基准,且 gsm8k_accuracy_thres 保持不变(0.93),不会掩盖真实回归。
仅影响测试稳定性,对用户无任何影响,对系统无性能或功能影响。团队 CI 可靠性提升,减少人工 rerun 成本。
当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。
参与讨论