#21733 [CI]Remove msgm-en and mmlu tests which cause timeout

原始 PR 作者 Fridge003 合并时间 2026-03-31 16:10 文件变更 6 提交数 4 评论 17 代码增减 +43 / -42

执行摘要

移除导致 CI 超时的 msgm-en 和 mmlu 测试，替换为 gsm8k 测试。

PR标题明确指出移除导致超时的测试，从Issue评论中作者多次使用/rerun-ut命令重跑测试验证通过，表明动机是修复CI中的超时故障，确保测试流程更可靠。

对于CI维护者和测试工程师，建议关注此PR以了解测试策略的调整。变更相对简单，无需深入代码审查，但应留意测试覆盖的变化，并考虑在后续PR中补充其他评估或验证新阈值的合理性。

讨论亮点

由于没有正式的review评论，讨论有限。Issue评论中作者使用/rerun-ut和/rerun-stage命令多次验证测试通过，如/rerun-ut test_moe_eval_accuracy_large.py和/rerun-stage stage-b-test-2-gpu-large，表明变更经过初步验证，但缺乏深度技术讨论。

实现拆解

CI配置优化：在.github/workflows/pr-test.yml中移除重复的human-eval安装步骤，避免冗余操作。
依赖安装调整：在scripts/ci/cuda/ci_install_dependency.sh中统一添加human-eval安装，确保依赖正确设置。
测试用例替换：在多个测试文件（如test_data_parallelism.py、test_dp_attention.py等）中将MMLUMixin和MGSMEnMixin替换为GSM8KMixin，并更新测试逻辑以使用gsm8k评估。
阈值设置：为新测试设置gsm8k_accuracy_thres值（如0.6或0.7），以维持测试准确性。

文件	模块	状态	重要度
`.github/workflows/pr-test.yml`	CI	modified	5.0
`scripts/ci/cuda/ci_install_dependency.sh`	CI	modified	4.0
`test/registered/moe/test_moe_ep.py`	测试	modified	4.0
`test/registered/distributed/test_data_parallelism.py`	测试	modified	3.0

关键符号

test_gsm8k run_eval_few_shot_gsm8k

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

测试覆盖风险：移除mmlu和msgm-en测试可能降低对模型特定能力（如知识推理和数学问题）的评估覆盖。
依赖安装风险：将human-eval安装移到ci_install_dependency.sh脚本中，可能影响其他CI作业的依赖管理，需确保安装顺序正确。
新测试准确性风险：gsm8k测试的阈值设置（如0.6）未经广泛验证，可能引入误报或漏报，影响模型性能评估的可靠性。

对CI系统：减少超时失败，提高测试流水线的稳定性和执行效率，有助于加快开发迭代。
对测试质量：测试套件从专注于特定数据集（如mmlu用于知识评估）转向gsm8k（数学问题），可能影响模型性能评估的全面性，需监控测试结果变化。
对团队：简化CI维护工作，但工程师需关注测试策略调整，并考虑后续补充其他评估以确保覆盖。

测试覆盖减少依赖安装变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR通过移除导致超时的msgm-en和mmlu测试，并将它们替换为gsm8k测试，优化了CI配置以提高稳定性。变更涉及CI工作流调整、依赖安装统一和多个测试文件更新，属于常规维护，风险较低但需关注测试覆盖变化。

功能与动机

动机：解决CI测试中的超时问题，确保测试流程更可靠。PR标题明确指出“Remove msgm-en and mmlu tests which cause timeout”，从Issue评论中作者多次重跑测试验证通过（如使用/rerun-ut命令），表明这些测试在CI中频繁超时，影响开发效率。

实现拆解

主要变更点如下：

CI工作流文件：在.github/workflows/pr-test.yml中移除重复的human-eval安装步骤，简化流程。
依赖脚本：在scripts/ci/cuda/ci_install_dependency.sh中添加human-eval安装，统一管理依赖。
测试文件：在多个测试文件（如test_data_parallelism.py、test_dp_attention.py、test_moe_eval_accuracy_large.py、test_moe_ep.py）中：
- 将MMLUMixin和MGSMEnMixin替换为GSM8KMixin。
- 更新测试方法，例如将test_mgsm_en改为test_gsm8k，并使用run_eval_few_shot_gsm8k函数。
- 设置新的准确性阈值，如gsm8k_accuracy_thres = 0.6。

评论区精华

由于没有正式的review讨论，评论区精华有限。Issue评论中显示作者通过命令验证变更：

Fridge003: /rerun-ut test_moe_eval_accuracy_large.py
github-actions[bot]: ✅ 2-gpu-h100: View workflow run
这表示变更经过初步测试通过，但缺乏深度技术权衡或争议讨论。

风险与影响

技术风险：
- 测试覆盖减少：移除mmlu和msgm-en测试可能遗漏模型在知识推理和数学问题上的性能问题。
- 依赖安装变更：将human-eval安装移到脚本中，可能影响其他CI作业，需确保安装顺序无误。
- 新测试准确性：gsm8k测试的阈值（如0.6）未经验证，可能引入评估偏差。
影响范围：
- 对CI：提高稳定性和效率，减少超时失败。
- 对测试质量：测试重点从多领域评估转向数学问题，可能需补充其他评估以保持全面性。
- 对团队：简化维护，但需监控测试结果并调整策略。

关联脉络

从历史PR分析，PR 21714 “Fix human-eval CI install on 5090 runners” 与本PR相关，因为它同样修复human-eval安装问题。这表明仓库近期在持续优化CI测试流程，以解决依赖和超时挑战。本PR进一步调整测试用例，反映了从特定数据集评估向更稳定测试的演进趋势。

#21733 [CI]Remove msgm-en and mmlu tests which cause timeout

执行摘要

移除导致 CI 超时的 msgm-en 和 mmlu 测试，替换为 gsm8k 测试。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论