Prhub

#37924 [ROCm][CI][PD] Add Hybrid SSM integration tests to CI

原始 PR 作者 AndreasKaratzas 合并时间 2026-03-25 07:58 文件变更 1 提交数 1 评论 2 代码增减 +15 / -0

执行摘要

在 AMD ROCm CI 管道中添加 Hybrid SSM 集成测试步骤。

PR body 指出此变更是基于 PR #37657 的测试结果,测试在 gfx950(MI300 GPU)上通过,预计在 gfx90a(MI250 GPU)上也通过。动机是将已验证的手动测试集成到 CI 管道中,以提高测试自动化程度和代码质量。

此 PR 值得快速浏览,以了解 CI 测试扩展和跨平台测试策略。关注点在于 CI 配置与硬件目标的匹配,以及如何管理不同 GPU 架构的测试覆盖。对于涉及 ROCm 或 kv-connector 开发的工程师,可参考此 PR 来设置类似测试。

讨论亮点

review 中,gemini-code-assist[bot] 指出 CI 配置中 agent_pool 指定为 mi250_4(针对 MI250/gfx90a GPU),而 PR 描述说测试在 gfx950(MI300 GPU)上验证通过,这可能导致硬件架构不匹配和测试覆盖不足。AndreasKaratzas 回复 'updated pr body.',但未修改配置以解决此问题。讨论未深入进行,tjtanaa 批准了 PR。

实现拆解

实现仅涉及一个文件:.buildkite/test-amd.yaml。在该文件中添加了一个新步骤,标签为 'Hyrbid SSM NixlConnector PD accuracy tests (4 GPUs)',配置包括:超时 180 分钟、硬件镜像 [amdexperimental, amdproduction, amdgfx90anightly, amdmi250]、agent_pool mi250_4、4 个 GPU、工作目录指向测试文件、依赖相关源文件(如 nixl_connector.py 和 rocm.py),并执行 bash 脚本 HYBRID_SSM=1 ROCM_ATTN=1 bash v1/kv_connector/nixl_integration/config_sweep_accuracy_test.sh

文件 模块 状态 重要度
.buildkite/test-amd.yaml CI/Infrastructure modified 5.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

CI 配置与硬件目标匹配 设计

gemini-code-assist[bot] 指出 agent_pool mi250_4 可能不匹配目标硬件 gfx950,导致测试覆盖不足。

结论:AndreasKaratzas 更新了 PR body,但未改变配置,问题未完全解决。 · 未解决

风险与影响

主要风险是 CI 测试可能无法准确验证目标硬件。agent_pool mi250_4 针对 MI250(gfx90a),但测试预期覆盖 MI300(gfx950),由于架构差异(如 vllm/platforms/rocm.py 中的平台特定代码),在 MI250 上运行测试可能无法发现 MI300 特有的问题。此外,如果硬件不匹配,测试结果可能误导,导致潜在问题未被捕获。

对用户影响较小,间接通过提高 Hybrid SSM 在 ROCm 上的测试覆盖来增强软件质量。对系统:增加 CI 运行时间和资源消耗,但提供额外的自动化验证。对团队:减少手动测试负担,促进持续集成,但需注意硬件兼容性以确保测试有效性。

CI 配置不匹配 硬件架构覆盖不足

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论