Prhub

#36803 [Test] E2E Nemotron-3-Super tests

原始 PR 作者 roikoren755 合并时间 2026-03-24 08:49 文件变更 6 提交数 7 评论 6 代码增减 +37 / -0

执行摘要

为 Nemotron-3-Super 模型添加 BF16、FP8 和 NVFP4 量化格式的端到端 GSM8K 测试。

根据PR body描述,目的是'Adding 3 E2E tests for Nemotron-3-Super, in BF16, FP8 and NVFP4, with speculative decoding',即通过添加端到端测试来验证Nemotron-3-Super模型在各种量化格式和推测解码配置下的功能正确性。

该PR值得快速浏览以了解Nemotron-3-Super模型的测试配置细节,特别关注YAML文件中的模型命名一致性和CI资源设置。对于工程师,可学习如何集成推测解码到端到端测试中;对于管理者,可视为测试覆盖扩展的常规更新。

讨论亮点

Review中的核心讨论包括:gemini-code-assist[bot]指出新增YAML配置文件中文件名(含'A20B')与model_name值(含'A12B')不一致,可能影响测试正确性,建议统一命名;mgoin评论CI配置中设备设置问题,指出H200资源限制,建议调整设备数量或使用H100。提交历史显示这些问题通过后续提交(如'Update model names'和'Update GPU requirements')得到解决。

实现拆解

实现方案主要包括三个部分:

1) 新增三个YAML配置文件(BF16、FP8、NVFP4),定义模型名称、精度阈值、服务器参数(如TP大小、专家并行、推测解码配置);
2) 更新两个模型列表文件(models-blackwell.txt和models-h200.txt),将新测试配置纳入相应GPU平台的测试套件;
3) 修改CI流水线文件(.buildkite/test_areas/lm_eval.yaml),添加新的测试步骤,涉及设备类型和数量调整。

文件 模块 状态 重要度
.buildkite/test_areas/lm_eval.yaml infra modified 4.0
tests/evals/gsm8k/configs/Nemotron-3-Super-120B-A12B-BF16.yaml test added 5.0
tests/evals/gsm8k/configs/Nemotron-3-Super-120B-A12B-NVFP4.yaml test added 5.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

文件名与 model_name 不一致 正确性

gemini-code-assist[bot] 指出在新增的 YAML 配置文件中,文件名包含 'A20B' 而 model_name 值为 'A12B',如 ' Nemotron-3-Super-120B-A12B-BF16.yaml' 中 model_name 为 'nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16',可能导致测试运行错误模型。

结论:通过提交历史中的 'Update model names' 等提交修复,统一了命名,问题已解决。 · 已解决

CI 设备配置调整 infra

mgoin 评论指出 H200 资源限制('I think our h200 resource is still disabled, only does 8 devices'),建议调整设备数量或使用 H100,以确保测试可运行。

结论:提交历史中有 'Update GPU requirements' 提交,CI 配置被调整以适应可用资源。 · 已解决

风险与影响

技术风险包括:

1) 配置文件不一致风险:如果文件名与model_name不匹配(如A20B vs A12B),可能导致测试运行错误模型,影响测试准确性,涉及文件如tests/evals/gsm8k/configs/Nemotron-3-Super-120B-A12B-BF16.yaml;
2) CI资源错误:设备配置不当(如num_devices设置)可能导致测试失败或资源浪费,涉及文件.buildkite/test_areas/lm_eval.yaml;
3) 潜在回归风险:根据Issue评论,PR合并后可能引入准确性回归(关联issue #38098),需监控测试结果。

影响范围:对用户无直接影响,因为是内部测试添加;对系统,增强了Nemotron-3-Super模型的测试覆盖,有助于早期发现量化格式和推测解码相关bug;对团队,增加了测试维护负担,但通过标准化配置(如使用相同accuracy_threshold和参数)可简化管理。影响程度中等,主要限于测试基础设施。

配置不一致风险 CI 资源错误

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论