#38046 [compile] Add some more startup tests for top models

vllm-project/vllm · 作者 zou3519 · 合并时间 2026-03-26 00:02

分析状态已生成

文件变更 4提交数 1 · 评论 6

代码增减 +260 / -88

test torch.compile performance ci

执行摘要

添加针对顶级模型的 torch.compile 启动时间测试，扩展 H100 设备上的测试覆盖。

PR body 中说明：目标是 "continuously refresh these tests with the top models"，以监控 vLLM-torch.compile 集成的启动时间。测试检查 "the number of unique subgraphs is much less than the total number of layers, otherwise something has gone wrong"，确保图分割和缓存机制正常工作，并识别 deepseek v3.2 和 kimi k2.5 等模型的热启动时间问题。

对于关注编译性能或测试基础设施的开发者，建议精读 tests/compile/h100/test_startup.py 以了解参数化测试设计和计数器检查逻辑。关注测试中使用的 CompilationConfig 和 compilation_counter，这些是验证 vLLM-compile 集成正确性的关键。同时，留意 issue #38051 的后续进展。

讨论亮点

review 中核心讨论点：

代码重构建议：gemini-code-assist[bot] 建议提取共享辅助函数以减少冷启动和热启动逻辑的代码重复，zou3519 回复 "resolved"，表示已采纳。
潜在正确性问题：zou3519 在 tests/compile/h100/test_startup.py 第 156 行指出，某些模型在热启动时保存编译工件，可能不是预期行为。zhxchen17 回应后，zou3519 创建 issue #38051 进一步调查，并添加 TODO 标记。

实现拆解

实现包括三个关键变更：1) 在 .buildkite/test_areas/pytorch.yaml 中添加 H100 设备的编译单元测试步骤，增强 CI 覆盖。2) 创建 tests/compile/h100/test_startup.py，定义参数化测试函数（如 test_moe_startup），覆盖多个顶级模型（如 GLM 旧版本），使用计数器检查冷启动和热启动时的编译工件数量。3) 移除旧的 tests/compile/test_startup.py，将测试逻辑迁移到新目录，避免冗余。

文件	模块	状态	重要度
`.buildkite/test_areas/pytorch.yaml`	CI	modified	4.0
`tests/compile/h100/test_startup.py`	tests/compile	added	6.0
`tests/compile/test_startup.py`	tests/compile	removed	3.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

test_moe_startup _cold_start _run_vllm

评论区精华

代码重构以减少重复逻辑 style

gemini-code-assist[bot] 建议提取共享辅助函数来处理冷启动和热启动的编译工件检查，BoyuanFeng 支持此建议。

结论：zou3519 回复 "resolved"，表示可能已采纳重构，但具体实现未在材料中展示。 · 已解决

热启动时保存编译工件的异常 正确性

zou3519 指出在测试中发现某些模型在热启动时保存编译工件，可能不是预期行为，并询问 zhxchen17。

结论：zhxchen17 同意需进一步调查，zou3519 创建 issue #38051 跟踪，并在代码中添加 TODO 标记。 · unresolved

风险与影响

技术风险较低，但仍需关注：

测试逻辑准确性：新测试依赖计数器（如 counters["aot_autograd"]["total"]）验证编译行为，如果计数器逻辑变化或模型结构差异，可能导致假阳性或假阴性测试失败。
设备特定依赖：新增 H100 设备测试步骤（.buildkite/test_areas/pytorch.yaml），在其他设备（如 A100 或非 NVIDIA GPU）上可能不适用，增加 CI 维护复杂度。
未解决疑虑：热启动时保存编译工件的问题（issue #38051）可能揭示 vLLM-compile 集成中的缓存机制缺陷，需进一步调查。

影响分析：

对用户：无直接影响，仅影响内部开发和测试流程。
对系统：增强 torch.compile 启动时间的监控能力，通过更广泛的模型覆盖，帮助早期发现编译性能回归或缓存异常。
对团队：增加测试覆盖，减少未来编译相关变更的回归风险；但需维护新测试代码，并解决潜在问题如热启动工件保存问题。

测试逻辑复杂性设备特定测试未解决正确性问题

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此 PR 通过添加针对多个顶级模型的 torch.compile 启动时间测试，扩展了 vLLM 在 H100 设备上的测试覆盖。核心变更包括迁移现有测试到 H100 目录并新增参数化测试，旨在持续监控编译缓存的正确性和性能。review 中识别出代码重构建议和热启动异常问题，后者已创建 issue 跟踪，风险较低但需关注测试准确性和设备依赖性。

功能与动机

此变更的动机是持续刷新 vLLM 中 torch.compile 集成启动时间测试的覆盖率，以检测编译子图生成和缓存机制的异常。PR body 明确提到：“The goal is for us to continuously refresh these tests with the top models”，并强调通过检查唯一子图数量远少于总层数来验证编译行为正确性。同时，作者指出后续工作包括优化编译速度和调查特定模型的热启动问题，体现了测试的持续监控目的。

实现拆解

实现主要分为三个模块：

CI 配置扩展：在 .buildkite/test_areas/pytorch.yaml 中添加 H100 设备的编译单元测试步骤，增加 device: h100 和相应依赖命令，强化 CI 中的编译测试执行。
测试文件迁移与扩展：创建 tests/compile/h100/test_startup.py，包含以下关键部分：
- 使用 @pytest.mark.parametrize 定义多模型测试，如针对 GLM 等模型的冷启动和热启动验证。
- 通过 compilation_counter.expect() 函数检查编译工件的保存和加载数量，例如：
  python with compilation_counter.expect(num_compiled_artifacts_saved=3, num_compiled_artifacts_loaded=0): _run_vllm(vllm_runner)
- 使用 counters["aot_autograd"]["total"] 等计数器验证子图生成行为。
旧测试清理：移除 tests/compile/test_startup.py，避免代码冗余，将测试逻辑集中在 H100 目录。

评论区精华

review 讨论中，两个主要线程值得关注：

代码风格优化：gemini-code-assist[bot] 建议“extract this logic into a shared helper function”以减少代码重复，BoyuanFeng 附议，zou3519 回复 resolved，暗示重构已完成。
正确性疑问：zou3519 发现“we're saving compiled artifacts during warm start for these two models?”，zhxchen17 回应“Seems not intended. Do you want to add TODO here?”，最终创建 issue #38051 深入调查，揭示了测试中可能隐藏的缓存机制问题。

风险与影响

风险方面：

测试依赖的计数器逻辑（如 aot_autograd 计数器）可能随 torch 版本变化而失效，导致测试 flaky。
H100 特定测试步骤（在 .buildkite/test_areas/pytorch.yaml 中）限制了 CI 在其他设备上的适用性，增加维护负担。
热启动时保存编译工件的问题（issue #38051）若未解决，可能掩盖 vLLM-compile 集成的缓存缺陷。

影响方面：

对用户无直接可见影响，但提升编译性能的监控能力，减少生产环境中的编译回归风险。
对开发团队，增加测试覆盖有助于早期发现编译问题，但需投入资源维护和调查潜在异常。

关联脉络

从历史 PR 看，此 PR 与多个测试和 CI 改进 PR 相关：

PR #38102 修正 ROCm 测试文件路径，与本 PR 的 CI 配置变更类似，都旨在提升测试准确性。
PR #37616 修复 flaky 测试，与本 PR 扩展测试覆盖和潜在 flaky 风险呼应，显示团队持续优化测试稳定性的趋势。
整体上，此 PR 是 vLLM 编译测试演进的一部分，强调对顶级模型和特定设备（H100）的持续监控，以支撑 torch.compile 集成的稳健性。

支持 Prhub ♥

#38046 [compile] Add some more startup tests for top models

执行摘要

添加针对顶级模型的 torch.compile 启动时间测试，扩展 H100 设备上的测试覆盖。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论