Prhub

#21733 [CI]Remove msgm-en and mmlu tests which cause timeout

原始 PR 作者 Fridge003 合并时间 2026-03-31 16:10 文件变更 6 提交数 4 评论 17 代码增减 +43 / -42

执行摘要

移除导致 CI 超时的 msgm-en 和 mmlu 测试,替换为 gsm8k 测试。

PR标题明确指出移除导致超时的测试,从Issue评论中作者多次使用/rerun-ut命令重跑测试验证通过,表明动机是修复CI中的超时故障,确保测试流程更可靠。

对于CI维护者和测试工程师,建议关注此PR以了解测试策略的调整。变更相对简单,无需深入代码审查,但应留意测试覆盖的变化,并考虑在后续PR中补充其他评估或验证新阈值的合理性。

讨论亮点

由于没有正式的review评论,讨论有限。Issue评论中作者使用/rerun-ut/rerun-stage命令多次验证测试通过,如/rerun-ut test_moe_eval_accuracy_large.py/rerun-stage stage-b-test-2-gpu-large,表明变更经过初步验证,但缺乏深度技术讨论。

实现拆解

  1. CI配置优化:在.github/workflows/pr-test.yml中移除重复的human-eval安装步骤,避免冗余操作。
  2. 依赖安装调整:在scripts/ci/cuda/ci_install_dependency.sh中统一添加human-eval安装,确保依赖正确设置。
  3. 测试用例替换:在多个测试文件(如test_data_parallelism.pytest_dp_attention.py等)中将MMLUMixin和MGSMEnMixin替换为GSM8KMixin,并更新测试逻辑以使用gsm8k评估。
  4. 阈值设置:为新测试设置gsm8k_accuracy_thres值(如0.6或0.7),以维持测试准确性。
文件 模块 状态 重要度
.github/workflows/pr-test.yml CI modified 5.0
scripts/ci/cuda/ci_install_dependency.sh CI modified 4.0
test/registered/moe/test_moe_ep.py 测试 modified 4.0
test/registered/distributed/test_data_parallelism.py 测试 modified 3.0

关键符号

test_gsm8k run_eval_few_shot_gsm8k

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

  • 测试覆盖风险:移除mmlu和msgm-en测试可能降低对模型特定能力(如知识推理和数学问题)的评估覆盖。
  • 依赖安装风险:将human-eval安装移到ci_install_dependency.sh脚本中,可能影响其他CI作业的依赖管理,需确保安装顺序正确。
  • 新测试准确性风险:gsm8k测试的阈值设置(如0.6)未经广泛验证,可能引入误报或漏报,影响模型性能评估的可靠性。
  • 对CI系统:减少超时失败,提高测试流水线的稳定性和执行效率,有助于加快开发迭代。
  • 对测试质量:测试套件从专注于特定数据集(如mmlu用于知识评估)转向gsm8k(数学问题),可能影响模型性能评估的全面性,需监控测试结果变化。
  • 对团队:简化CI维护工作,但工程师需关注测试策略调整,并考虑后续补充其他评估以确保覆盖。
测试覆盖减少 依赖安装变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论