Prhub

#37657 [CI][PD] Add Hybrid SSM integration tests to CI

原始 PR 作者 NickLucche 合并时间 2026-03-23 23:58 文件变更 3 提交数 2 评论 0 代码增减 +14 / -2

执行摘要

添加 Hybrid SSM NixlConnector 集成测试到 CI,扩展测试覆盖。

根据PR body,动机是'expand PD integration coverage by running these tests on CI.',目的是通过CI运行测试来扩展PD integration的覆盖范围,验证Hybrid SSM场景下的kv_connector行为。

这是一个简单的CI测试添加,不值得深入精读。工程师可关注模型从Nemotron改为Granite的决策,以了解测试资源优化和配置调整的思路。

讨论亮点

review中几乎没有争议性讨论。gemini-code-assist[bot]评论:'The change is straightforward and correctly configured within the Buildkite pipeline, enabling tests for a new model architecture. The configuration is consistent with existing test jobs in the file.' DarkLight1337批准,表明变更被认可为低风险且正确。

实现拆解

实现分为三个关键部分:

1) 在.buildkite/test_areas/distributed.yaml中添加新的Buildkite步骤,用于运行Hybrid SSM NixlConnector PD accuracy tests,配置4 GPUs和相应命令;
2) 修改tests/v1/kv_connector/nixl_integration/config_sweep_accuracy_test.sh中的hybrid_ssm_configs,将模型从NVIDIA-Nemotron-3-Nano-30B-A3B-FP8改为ibm-granite/granite-4.0-h-tiny,以避免模型过大问题;
3) 在tests/v1/kv_connector/nixl_integration/test_accuracy.py中添加新模型的精度阈值,确保测试准确性。

文件 模块 状态 重要度
.buildkite/test_areas/distributed.yaml CI pipeline modified 5.0
tests/v1/kv_connector/nixl_integration/config_sweep_accuracy_test.sh tests modified 4.0
tests/v1/kv_connector/nixl_integration/test_accuracy.py tests modified 4.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

代码审查确认变更正确性 测试

gemini-code-assist[bot] 评论:'The change is straightforward and correctly configured within the Buildkite pipeline, enabling tests for a new model architecture. The configuration is consistent with existing test jobs in the file.'

结论:变更被批准,无需修改,认为配置正确且风险低。 · 已解决

风险与影响

风险较低。主要风险是CI配置变更可能导致测试失败或增加CI运行时间,但由于变更仅涉及测试和配置,不影响核心代码逻辑,回归风险有限。具体来说,模型切换可能影响测试结果,但已在test_accuracy.py中更新阈值以适配。

对用户无直接影响,因为是内部CI改进。对系统增加了CI测试覆盖,可能轻微增加CI资源消耗,但范围小。对团队,改善了kv_connector在Hybrid SSM场景下的测试验证,有助于早期发现问题,提升代码质量。

低风险 测试配置变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论