#36803 [Test] E2E Nemotron-3-Super tests

原始 PR 作者 roikoren755 合并时间 2026-03-24 08:49 文件变更 6 提交数 7 评论 6 代码增减 +37 / -0

执行摘要

为 Nemotron-3-Super 模型添加 BF16、FP8 和 NVFP4 量化格式的端到端 GSM8K 测试。

根据PR body描述，目的是'Adding 3 E2E tests for Nemotron-3-Super, in BF16, FP8 and NVFP4, with speculative decoding'，即通过添加端到端测试来验证Nemotron-3-Super模型在各种量化格式和推测解码配置下的功能正确性。

该PR值得快速浏览以了解Nemotron-3-Super模型的测试配置细节，特别关注YAML文件中的模型命名一致性和CI资源设置。对于工程师，可学习如何集成推测解码到端到端测试中；对于管理者，可视为测试覆盖扩展的常规更新。

讨论亮点

Review中的核心讨论包括：gemini-code-assist[bot]指出新增YAML配置文件中文件名（含'A20B'）与model_name值（含'A12B'）不一致，可能影响测试正确性，建议统一命名；mgoin评论CI配置中设备设置问题，指出H200资源限制，建议调整设备数量或使用H100。提交历史显示这些问题通过后续提交（如'Update model names'和'Update GPU requirements'）得到解决。

实现拆解

实现方案主要包括三个部分：

1) 新增三个YAML配置文件（BF16、FP8、NVFP4），定义模型名称、精度阈值、服务器参数（如TP大小、专家并行、推测解码配置）；
2) 更新两个模型列表文件（models-blackwell.txt和models-h200.txt），将新测试配置纳入相应GPU平台的测试套件；
3) 修改CI流水线文件（.buildkite/test_areas/lm_eval.yaml），添加新的测试步骤，涉及设备类型和数量调整。

文件	模块	状态	重要度
`.buildkite/test_areas/lm_eval.yaml`	infra	modified	4.0
`tests/evals/gsm8k/configs/Nemotron-3-Super-120B-A12B-BF16.yaml`	test	added	5.0
`tests/evals/gsm8k/configs/Nemotron-3-Super-120B-A12B-NVFP4.yaml`	test	added	5.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

文件名与 model_name 不一致 正确性

gemini-code-assist[bot] 指出在新增的 YAML 配置文件中，文件名包含 'A20B' 而 model_name 值为 'A12B'，如 ' Nemotron-3-Super-120B-A12B-BF16.yaml' 中 model_name 为 'nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16'，可能导致测试运行错误模型。

结论：通过提交历史中的 'Update model names' 等提交修复，统一了命名，问题已解决。 · 已解决

CI 设备配置调整 infra

mgoin 评论指出 H200 资源限制（'I think our h200 resource is still disabled, only does 8 devices'），建议调整设备数量或使用 H100，以确保测试可运行。

结论：提交历史中有 'Update GPU requirements' 提交，CI 配置被调整以适应可用资源。 · 已解决

风险与影响

技术风险包括：

1) 配置文件不一致风险：如果文件名与model_name不匹配（如A20B vs A12B），可能导致测试运行错误模型，影响测试准确性，涉及文件如tests/evals/gsm8k/configs/Nemotron-3-Super-120B-A12B-BF16.yaml；
2) CI资源错误：设备配置不当（如num_devices设置）可能导致测试失败或资源浪费，涉及文件.buildkite/test_areas/lm_eval.yaml；
3) 潜在回归风险：根据Issue评论，PR合并后可能引入准确性回归（关联issue #38098），需监控测试结果。

影响范围：对用户无直接影响，因为是内部测试添加；对系统，增强了Nemotron-3-Super模型的测试覆盖，有助于早期发现量化格式和推测解码相关bug；对团队，增加了测试维护负担，但通过标准化配置（如使用相同accuracy_threshold和参数）可简化管理。影响程度中等，主要限于测试基础设施。

配置不一致风险 CI 资源错误

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR为Nemotron-3-Super模型新增了三个端到端GSM8K测试，覆盖BF16、FP8和NVFP4量化格式，并集成推测解码功能。通过创建YAML配置文件、更新CI流水线和模型列表，增强了测试覆盖以验证模型正确性。讨论中解决了文件名不一致和CI设备配置问题，但需注意潜在回归风险。

功能与动机

为什么做：根据PR描述，目的是“Adding 3 E2E tests for Nemotron-3-Super, in BF16, FP8 and NVFP4, with speculative decoding”，即验证Nemotron-3-Super模型在不同量化格式和推测解码配置下的功能，确保模型集成后的正确性。这属于常规测试扩展，无直接用户影响，但有助于内部质量保证。

实现拆解

实现按模块拆解如下：

模块	关键改动点	影响文件示例
测试配置	新增三个YAML文件，定义模型名称、精度阈值、服务器参数（如 `--tensor-parallel-size 8`、`--enable-expert-parallel`、推测解码配置）。	`tests/evals/gsm8k/configs/Nemotron-3-Super-120B-A12B-BF16.yaml`
CI流水线	更新 `.buildkite/test_areas/lm_eval.yaml`，添加新的测试步骤标签（如“Nemotron-3 Super 120B GSM8K (H200)”），调整设备设置（`device: h200`，`num_devices: 4`）。	`.buildkite/test_areas/lm_eval.yaml`
模型列表	修改 `models-blackwell.txt` 和 `models-h200.txt`，将新配置文件加入对应GPU平台的测试列表。	`tests/evals/gsm8k/configs/models-blackwell.txt`

关键代码逻辑示例（来自YAML文件）：

model_name: "nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16"
accuracy_threshold: 0.93
server_args: >-
  --enforce-eager
  --max-model-len 4096
  --tensor-parallel-size 8
  --enable-expert-parallel
  --speculative-config '{"method":"mtp","num_speculative_tokens":5}'

评论区精华

Review讨论中最有价值的交锋：

文件名不一致问题：gemini-code-assist[bot]指出“There's an inconsistency between the filename, which contains A20B, and the model_name value, which contains A12B”。这涉及测试正确性，通过后续提交修复。
CI资源调整：mgoin评论“We only have B200 runners with 2 devices, so please update to that config”和“I think our h200 resource is still disabled”，促使作者调整设备配置以避免测试失败。

风险与影响

具体风险：

配置不一致：如YAML文件中模型命名错误，可导致测试运行无效模型，影响回归检测。风险点：tests/evals/gsm8k/configs/Nemotron-3-Super-120B-A12B-BF16.yaml 等文件。
CI资源错误：设备设置不当（如使用不可用H200资源）可能引起测试超时或失败，浪费CI资源。风险点：.buildkite/test_areas/lm_eval.yaml。
潜在回归：根据Issue评论，PR合并后可能出现准确性回归（关联issue #38098），需监控LM Eval测试结果。

影响范围：

对用户：无直接影响，纯内部测试增强。
对系统：提升Nemotron-3-Super模型测试覆盖，有助于早期发现量化相关bug。
对团队：增加测试维护工作，但通过标准化配置简化管理。

关联脉络

与历史PR的关联揭示测试基础设施的演进：

PR 38987：修复推测解码测试，与本PR的推测解码配置共享技术背景，显示团队持续优化解码相关测试。
PR 39029：修复Nemotron模型设备不匹配bug，与本PR的Nemotron-3-Super测试形成模型系列支持脉络。
整体趋势：vLLM仓库正通过添加多量化格式和推测解码测试，强化大型模型（如Nemotron-3-Super）的端到端验证，确保新功能（如FP8/NVFP4量化）的稳定性。

#36803 [Test] E2E Nemotron-3-Super tests

执行摘要

为 Nemotron-3-Super 模型添加 BF16、FP8 和 NVFP4 量化格式的端到端 GSM8K 测试。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论