Prhub

#43188 [ci] Revert model executor test back to L4

原始 PR 作者 khluu 合并时间 2026-05-20 14:01 文件变更 1 提交数 1 评论 1 代码增减 +0 / -1

执行摘要

将 model executor 测试从 H200 回退到 L4

Nvidia driver needs update for H200 MIG,因此将 model executor 测试从 H200 迁移回 L4,以保证 CI 正常运行。

此 PR 为临时性 CI 配置调整,关注度低。建议在驱动更新后恢复 H200 测试,或采纳 bot 建议显式指定 L4 以增加确定性。

讨论亮点

Gemini code-assist bot 评论指出,PR 标题是回退到 L4,但删除 device 行可能导致测试被分配到非 L4 agent,建议显式设置 device: l4 以确保正确路由。该建议未被采纳。

实现拆解

  1. .buildkite/test_areas/model_executor.yaml 中删除 device: h200_35gb 一行,使测试不再指定设备,默认由 buildkite 分配到 L4 agent。
  2. 代码变更仅为一行删除,无其他文件改动。
文件 模块 状态 重要度
.buildkite/test_areas/model_executor.yaml CI 配置 modified 3.14

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

显式指定 L4 设备 设计

Gemini code-assist bot 建议显式设置 device: l4 以确保测试正确路由到 L4 agent,而不是完全删除 device 行。

结论:当前 PR 未采纳建议,直接删除了 device 行。后续可能因路由不确定性导致问题。 · 未解决

风险与影响

删除 device 后,测试可能被分配到其他类型的 agent(如 A100),导致测试环境不一致或资源占用冲突。如果 L4 资源不足,可能阻塞 CI 流程。

影响 CI 基础设施:Model Executor 测试将从 H200 设备迁移到默认设备(预期为 L4),测试性能可能因 GPU 不同而发生变化,但功能不受影响。

缺少显式设备指定 临时性配置

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论