Prhub

#21156 [Fix][Eval] Keep `--dataset-path` scoped to `longbench_v2`

原始 PR 作者 mmangkad 合并时间 2026-03-24 17:25 文件变更 1 提交数 2 评论 3 代码增减 +2 / -2

执行摘要

修复 gpqa 评估因错误使用 --dataset-path 导致的文件未找到错误。

PR body 指出:'--dataset-path appears to be meant for longbench_v2 only, since it is defined under the LongBench-v2-specific arguments and defaults to THUDM/LongBench-v2. After #20469, gpqa started reading args.dataset_path, which can make it try to open THUDM/LongBench-v2 as a local CSV path.' 因此,需要修复此 bug 并保持参数作用域正确,避免评估脚本运行失败。

该 PR 值得快速浏览以了解参数作用域和 bug 修复的简单实现,但设计决策直白,无需深入分析。建议关注点:是否应在后续 PR 中恢复 gpqa 的自定义路径能力,或添加如 --gpqa-dataset-path 的专用参数,以避免功能回归。

讨论亮点

review 中,gemini-code-assist[bot] 评论:'This change fixes a bug where the gpqa evaluation would incorrectly use the default dataset for longbench_v2 when no path was specified. However, it also removes the ability to specify a custom dataset path for gpqa via the --dataset-path argument. This is a functional regression for users who were correctly using this feature.' 并建议添加专用参数或检查默认值。Fridge003 批准了 PR,表明可能接受当前修复或认为风险可管理,但讨论未解决自定义路径功能的缺失。

实现拆解

python/sglang/test/run_eval.pyrun_eval 函数中,修改两个关键点:

  1. 对于 gpqa 评估,将 filename = getattr(args, "dataset_path", None) or ("https://openaipublic.blob.core.windows.net/simple-evals/gpqa_diamond.csv") 改为硬编码 URL,移除了对 dataset_path 参数的依赖。
  2. 对于 longbench_v2 评估,将 data_source = getattr(args, "dataset_path", None) 改为 data_source = args.dataset_path,确保参数被正确使用且作用域限定。
文件 模块 状态 重要度
python/sglang/test/run_eval.py 测试 / 评估 modified 5.0

关键符号

run_eval

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

功能回归与参数作用域设计 设计

gemini-code-assist[bot] 指出修复 bug 的同时移除了 gpqa 自定义数据集路径的能力,这是一个功能回归,建议更稳健的解决方案如添加专用参数。

结论:PR 被批准合并,但评论中的建议未在本次变更中采纳,功能回归问题未解决。 · unresolved

风险与影响

主要风险是功能回归:gpqa 评估无法再通过 --dataset-path 指定自定义数据集路径,可能影响需要使用本地或不同数据集的用户,导致测试灵活性下降。性能和安全风险低,未涉及核心逻辑变更。兼容性方面,恢复了之前的行为,但与 #20469 引入的变更不兼容,且可能引发用户混淆。

对用户:修复了 gpqa 评估的 FileNotFoundError,确保默认配置下能正常运行;但自定义数据集用户将无法使用此功能,需要手动修改代码或等待后续改进。对系统:仅影响测试评估脚本 run_eval.py,不涉及核心模型或推理逻辑,系统稳定性无显著变化。对团队:提示了参数作用域设计的重要性,未来需考虑更清晰的参数分离以避免类似问题。

功能回归 参数作用域混淆

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论