#44013 Migrate header files to torch stable abi

原始 PR 作者 cleonard530 合并时间 2026-06-02 23:09 文件变更 18 提交数 6 评论 6 代码增减 +13 / -16

执行摘要

迁移 stable 头文件至 libtorch_stable 目录

在之前将内核迁移到 libtorch stable ABI 时（见 #43717），许多头文件被遗留在了原目录。为了维护清晰的项目结构和保证头文件编译时的 ABI 稳定性，需要将这些头文件一并迁移。janeyx99 在讨论中指出：'将 stable 头文件移到新目录，未来一旦有 .cpp 引入，-DTORCH_TARGET_VERSION 标志会强制执行稳定性。'

该 PR 是 torch stable ABI 迁移的必要清理步骤，虽无功能变化，但体现了如何通过目录结构和编译配置强制 ABI 稳定性的设计思路。建议关注 #43717 及相关讨论，了解完整迁移背景。对于从事内核开发的工程师，值得精读以掌握项目中稳定与不稳定代码的划分实践。

讨论亮点

janeyx99：可以移动所有 stable 头文件，但未使用的头文件可能退化；一旦有 .cpp 引入，-DTORCH_TARGET_VERSION 会强制稳定性。
Harry-Chen：建议外部文件使用显式前缀，内部文件保持简洁。最终未采用显式前缀，以保持包含风格一致并减少改动。

实现拆解

识别并移动头文件：将仅被 stable 内核使用的 broadcast_load_epilogue_c2x.hpp、launch_bounds_utils.h、ggml-common.h 等头文件通过 git rename 从 csrc/ 下移动到 csrc/libtorch_stable/ 对应子目录，原文件被删除。
更新 include 路径：修改 scaled_mm_epilogues_c2x.hpp 中的 #include 路径，从相对子目录改为直接文件名（如 #include "broadcast_load_epilogue_c2x.hpp"）；在 gguf_kernel.cu 等文件中，将原本通过 ../../../ 相对路径引用的头文件改为简洁路径。
更新 pre-commit 配置：修改 .pre-commit-config.yaml 中的 exclude 规则，将排除路径从旧目录更新为新目录，避免 clang-format 格式化这些上游头文件。
还原中间尝试：曾尝试使用 stable_libtorch/ 显式前缀路径，但随后回退，最终采用简洁相对路径以降低维护成本。

文件	模块	状态	重要度
`csrc/libtorch_stable/cutlass_extensions/epilogue/scaled_mm_epilogues_c2x.hpp`	内核源码	modified	4.82
`csrc/libtorch_stable/cutlass_extensions/epilogue/broadcast_load_epilogue_c2x.hpp`	内核源码	renamed	4.58
`csrc/libtorch_stable/launch_bounds_utils.h`	内核源码	renamed	4.58
`csrc/libtorch_stable/quantization/gguf/ggml-common.h`	内核源码	renamed	4.58
`csrc/libtorch_stable/quantization/gguf/gguf_kernel.cu`	内核源码	modified	3.41
`.pre-commit-config.yaml`	格式化配置	modified	3.12

关键源码片段

csrc/libtorch_stable/cutlass_extensions/epilogue/scaled_mm_epilogues_c2x.hpp dependency-wiring

展示了头文件迁移后 include 路径的典型变更，是理解迁移模式的关键文件。

#pragma once

#include <torch/csrc/stable/tensor.h>

// 头文件从 cutlass_extensions/epilogue/ 子目录移至 libtorch_stable 同级，
// 因此包含路径从相对子目录简化为直接文件名。
#include "broadcast_load_epilogue_c2x.hpp"

/*
   This file defines custom epilogues for fusing channel scales, token scales,
   bias, and activation zero-points onto a GEMM operation using the
   CUTLASS 2.x API, for sm80 (Ampere) NVIDIA GPUs.
*/
namespace vllm::c2x {
using namespace cute;
// ...
}

评论区精华

迁移所有 stable 头文件的策略与风险 设计

janeyx99 认为可以移动所有 stable 头文件到新目录，但未使用的头文件可能退化；一旦有 .cpp 引入，-DTORCH_TARGET_VERSION 会强制稳定性。Harry-Chen 建议外部文件使用显式前缀。最终采用了简洁路径，并在 pre-commit 中排除以避免格式化干扰。

结论：决定移动所有稳定头文件，但暂不强制显式前缀；通过编译选项和测试确保稳定性。 · 已解决

风险与影响

构建失败风险：如果非 stable 代码意外引用了这些头文件的旧路径，移动后可能找不到文件。但由于这些头文件原本只被 stable 内核使用，影响范围较小。
编译回归：移动后，若某些头文件存在隐含的路径依赖，可能导致 stable 内核编译失败。测试套件（如 test_fused_qk_norm_rope.py 等）可覆盖核心路径，但缺少对 GGUF 等量化模块的专门测试。
维护风险：未来新增 stable 头文件需注意放置于正确目录，并更新 pre-commit 排除列表。

用户：无影响，仅内部结构重组，不改变运行时行为。
构建系统：stable 内核的 CMake 配置需确保能找到 libtorch_stable/ 下的头文件；pre-commit 配置更新避免格式化干扰。
开发者：未来添加稳定内核代码时，应遵循相同模式将头文件置于 libtorch_stable/，并使用简洁的相对包含路径。

头文件移动影响构建缺少直接测试验证

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此 PR 将仅被 libtorch stable ABI 内核使用的头文件从 csrc/ 下迁移到 csrc/libtorch_stable/，并更新所有 #include 引用以及 pre-commit 配置。这是清理性重构，无功能变化，但增强了编译时的 ABI 稳定性保证，为后续内核迁移奠定基础。

功能与动机

在之前将 CUDA 内核迁移到使用 libtorch stable ABI 的过程中（基于 #43717 讨论），许多头文件被遗留在了 csrc/ 下的原始位置，导致目录结构不统一且可能引入非稳定依赖。本 PR 旨在：

将仅被 stable 内核使用的头文件移入 csrc/libtorch_stable/，物理隔离稳定与非稳定代码。
更新所有包含路径和 pre-commit 配置，维持编译和代码格式一致性。

实现拆解

文件移动：通过 git rename 将 broadcast_load_epilogue_c2x.hpp、launch_bounds_utils.h、ggml-common.h 等移动到 csrc/libtorch_stable/ 对应子目录。
更新包含路径：在 scaled_mm_epilogues_c2x.hpp 中将 #include "cutlass_extensions/epilogue/broadcast_load_epilogue_c2x.hpp" 简化为 #include "broadcast_load_epilogue_c2x.hpp"；在 gguf_kernel.cu 中将原本通过 ../../../quantization/gguf/ 相对路径引用的 5 个头文件改为直接文件名。
调整格式化排除：修改 .pre-commit-config.yaml 中 clang-format 的 exclude 规则，将旧路径替换为新路径，避免格式化上游头文件。
路径风格回溯：曾尝试使用 stable_libtorch/ 显式前缀（如 #include "stable_libtorch/..."），但随后还原为简洁路径，以降低维护负担并与已有风格一致。

`csrc/libtorch_stable/cutlass_extensions/epilogue/scaled_mm_epilogues_c2x.hpp`

展示了头文件迁移后 include 路径的典型变更，是理解迁移模式的关键文件。

#pragma once

#include <torch/csrc/stable/tensor.h>

// 头文件从 cutlass_extensions/epilogue/ 子目录移至 libtorch_stable 同级，
// 因此包含路径从相对子目录简化为直接文件名。
#include "broadcast_load_epilogue_c2x.hpp"

/*
   This file defines custom epilogues for fusing channel scales, token scales,
   bias, and activation zero-points onto a GEMM operation using the
   CUTLASS 2.x API, for sm80 (Ampere) NVIDIA GPUs.
*/
namespace vllm::c2x {
using namespace cute;
// ...
}

评论区精华

janeyx99："我们可以将所有 stable 头文件移到新目录，但风险是未使用的头文件可能退化；一旦有 .cpp 引入，-DTORCH_TARGET_VERSION 标志会强制执行稳定性。"
Harry-Chen：建议外部文件使用显式前缀（如 stable_libtorch/）以突出意图，但最终团队选择简洁路径以减少改动量。

风险与影响

构建风险：非 stable 代码若未及时更新包含路径可能编译失败，但由于这些头文件原本仅被 stable 内核引用，影响面有限。
测试覆盖：PR 虽然运行了已有测试（如 test_fused_qk_norm_rope.py 等），但未增加专项测试来验证移动后的包含正确性；GGUF 相关测试依赖于手动检查。
开发者影响：未来新增 stable 内核时，应将头文件置于 libtorch_stable/ 并采用简洁相对包含路径，同时更新 pre-commit 排除规则。

关联脉络

本 PR 是 #43717 讨论的直接产出，属于 vLLM 推进 libtorch stable ABI 迁移的系列操作之一。后续可能需要将更多非 stable 头文件清理出 csrc/，并最终实现所有 CUDA 内核的稳定 ABI 编译。

#44013 Migrate header files to torch stable abi

执行摘要

迁移 stable 头文件至 libtorch_stable 目录

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论