Prhub

#22147 Add dump_metric to MMMU, lm-eval, and NeMo Skills eval paths

原始 PR 作者 hnyls2002 合并时间 2026-04-05 18:23 文件变更 3 提交数 1 评论 2 代码增减 +31 / -0

执行摘要

为 MMMU、lm-eval 和 NeMo Skills 评估路径添加 dump_metric 调用,统一指标收集

根据PR body描述,这是评估统一计划的第二阶段(第一阶段是GSM8K统一)。目标是确保所有评估路径都输出dump_metric数据,为未来阶段的回归检测基础设施奠定基础。所有通过run_eval.py的评估路径已经具备dump_metric,此PR覆盖剩余的三个路径。

该PR值得快速浏览以了解评估统一计划的进展。关注点:

1) dump_metric的静默失败设计确保了安全性。
2) review中提到的标签不一致问题值得注意,可能需要在后续PR中解决。
3) 这是#21667开始的评估统一计划的一部分,建议结合相关PR理解整体架构。

讨论亮点

review中只有一个来自gemini-code-assist[bot]的评论,指出lm_eval_kit.py中的标签模式与其他文件不一致。在其他文件中,eval标签代表基准/数据集名称(如"mmmu"),api标签代表框架/运行器(如"lmms-eval")。而在lm_eval_kit.py中,eval被设置为"lm-eval",基准存储在单独的task标签中。建议统一标签模式以保持跨工具收集的指标一致性。但作者未回复此评论,PR已合并,表明该不一致性可能被接受或将在后续处理。

实现拆解

在三个关键文件中添加dump_metric调用:

1) python/sglang/test/kits/mmmu_vlm_kit.py:在MMMUMixin.test_mmmu和MMMUMultiModelTestBase.run_vlm_mmmu_test方法中添加,使用"mmmu_score"指标名,标签包含model、eval="mmmu"、api="lmms-eval"。
2) python/sglang/test/kits/lm_eval_kit.py:在LMEvalMixin.test_lm_eval的每个任务/指标循环中添加,指标名格式为"{task_name}
{metric_name}",标签包含model、eval="lm-eval"、task。
3) python/sglang/test/accuracy_test_runner.py:在_run_nemo_skills_eval方法解析分数后添加,使用"{dataset}_score"指标名,标签包含model、eval=dataset、api="nemo-skills"。

文件 模块 状态 重要度
python/sglang/test/kits/mmmu_vlm_kit.py test/kits modified 6.0
python/sglang/test/kits/lm_eval_kit.py test/kits modified 6.0
python/sglang/test/accuracy_test_runner.py test modified 6.0

关键符号

MMMUMixin.test_mmmu MMMUMultiModelTestBase._run_vlm_mmmu_test LMEvalMixin.test_lm_eval _run_nemo_skills_eval dump_metric

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

dump_metric 标签模式不一致 consistency

gemini-code-assist[bot] 指出 lm_eval_kit.py 中的标签模式与其他文件不一致:在其他文件中,eval 标签代表基准 / 数据集名称,api 标签代表框架;而在此文件中,eval 设置为 "lm-eval",基准存储在 task 标签中。

结论:未明确解决,PR 已合并,不一致性可能被接受或将在后续处理 · 待处理

风险与影响

技术风险较低:

1) 功能风险:dump_metric被设计为静默失败,不会影响现有测试功能。
2) 性能风险:添加的调用开销很小,仅涉及少量函数调用和字典构造。
3) 兼容性风险:无破坏性变更,完全向后兼容。
4) 一致性风险:如review指出的标签模式不一致可能影响后续指标聚合和分析。

1) 对系统:为评估系统添加了统一的指标输出能力,支持未来回归检测。
2) 对用户:无直接影响,测试行为不变。
3) 对团队:为后续基础设施(如回归检测)提供数据基础,但需要解决标签不一致问题以确保数据质量。影响范围限于测试框架的评估路径。

标签模式不一致 review 未完全解决

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论