#36799 [Sparse24] [Deprecation] Remove Sparse24 CT integration and kernels

原始 PR 作者 kylesayrs 合并时间 2026-03-24 04:03 文件变更 17 提交数 3 评论 4 代码增减 +9 / -2674

执行摘要

移除 Sparse24 模型的压缩张量集成和内核代码，以减少维护负担和二进制大小。

根据PR body描述，目的是'减少vLLM和Compressed Tensors的维护负担，移除对不广泛使用的Sparse24模型的支持'以及'移除内核以减少二进制大小'。这反映了团队决定清理未广泛使用的功能以优化代码库和维护效率。

该PR值得快速浏览以了解弃用策略，但无需深究技术细节。关注点在于CompressedTensors24类的错误抛出方式和review中的直接删除决策，这对类似功能清理有参考价值。

讨论亮点

Review中仅有一次核心讨论：yewentao256在compressed_tensors_24.py的修改处评论'Should we have a period of deprecation, or just deleting this? @mgoin CC'，mgoin回复'No need, there are no downloads on the models'。这确认了直接删除的决策依据是Sparse24模型无实际下载量，无需设置过渡弃用期，简化了移除流程。

实现拆解

实现方案分为多个层次进行清理：

1) 在量化方案模块（compressed_tensors_24.py）中，修改CompressedTensors24类的__init__和create_weights方法，直接抛出NotImplementedError阻止模型加载；
2) 在构建系统（CMakeLists.txt）中移除稀疏内核的编译配置，避免生成相关二进制代码；
3) 在核心运算层删除csrc/sparse/cutlass/目录下的所有CUDA内核实现文件（如sparse_scaled_mm_c3x.cu）；
4) 在测试和基准模块移除相关Python文件（如test_cutlass_2of4_sparse.py和sparse_benchmarks.py）；
5) 在接口绑定层更新csrc/torch_bindings.cpp和vllm/_custom_ops.py，移除暴露的C++/Python函数接口。

文件	模块	状态	重要度
`vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_24.py`	quantization/schemes	modified	8.0
`CMakeLists.txt`	build	modified	7.0
`csrc/sparse/cutlass/sparse_scaled_mm_c3x.cu`	kernels/sparse	removed	6.0
`tests/kernels/quantization/test_cutlass_2of4_sparse.py`	tests/quantization	removed	5.0

关键符号

CompressedTensors24.__init__ CompressedTensors24.create_weights cutlass_scaled_sparse_mm cutlass_sparse_compress cutlass_sparse_scaled_mm_supported

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

弃用策略讨论 设计

yewentao256 询问是否需要设置弃用过渡期，mgoin 回复无模型下载，无需过渡

结论：直接删除功能，不设弃用期 · 已解决

风险与影响

技术风险较低：

1) 回归风险：仅影响极少数使用Sparse24模型的用户，根据讨论模型无下载，风险可控；
2) 兼容性：现有尝试加载Sparse24模型的代码将立即抛出NotImplementedError，可能导致应用中断，但影响范围小；
3) 性能：无负面性能影响，二进制大小减小可能轻微提升加载速度；
4) 安全：无新增安全问题。

影响范围：

1) 用户侧：使用Sparse24压缩模型的用户无法继续运行，需寻找替代方案或回退版本，但用户基数小；
2) 系统侧：二进制文件大小减小，编译时间可能缩短，代码库更简洁；
3) 团队侧：减少长期维护负担，可更聚焦于核心功能开发。影响程度中等，主要限于小众用例。

影响小众用户无过渡期直接移除

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本次PR移除了vLLM中对Sparse24稀疏量化模型的支持，包括压缩张量集成和CUDA内核实现，以降低维护负担并减小二进制体积。变更通过直接删除相关代码和在关键类抛出NotImplementedError实现，review讨论确认了无需弃用期的决策。

功能与动机

Sparse24模型因使用不广泛，成为维护负担。PR body明确指出："减少vLLM和Compressed Tensors的维护负担，移除对不广泛使用的Sparse24模型的支持"和"移除内核以减少二进制大小"。这体现了团队聚焦核心功能、优化代码健康的意图。

实现拆解

变更涵盖多个层次：

量化方案层：compressed_tensors_24.py中CompressedTensors24类的__init__和create_weights方法改为抛出NotImplementedError。
构建系统：CMakeLists.txt移除稀疏内核的编译配置，避免生成冗余代码。
内核实现：删除csrc/sparse/cutlass/目录下的所有CUDA文件，如sparse_scaled_mm_c3x.cu。
测试与基准：移除Python测试文件test_cutlass_2of4_sparse.py和基准脚本sparse_benchmarks.py。
接口绑定：更新csrc/torch_bindings.cpp和_custom_ops.py移除C++/Python函数暴露。

评论区精华

Review中仅有一次简短讨论：

yewentao256: "Should we have a period of deprecation, or just deleting this? @mgoin CC"
mgoin: "No need, there are no downloads on the models"

这明确了直接删除的依据是模型无实际使用数据，简化了弃用流程。

风险与影响

风险：主要影响尝试加载Sparse24模型的极少数用户，会立即遇到NotImplementedError；但因模型无下载，回归风险低。影响：用户侧需迁移或放弃使用；系统侧二进制减小、编译加速；团队侧维护负担降低。

关联脉络

从近期PR看，无直接相关的变更；但量化领域（如PR 32929的FP8抽象）和性能优化（如PR 36725的MoE修复）展示了vLLM持续演进中对效率的追求，本次清理与之协同，保持代码库精简。

#36799 [Sparse24] [Deprecation] Remove Sparse24 CT integration and kernels

执行摘要

移除 Sparse24 模型的压缩张量集成和内核代码，以减少维护负担和二进制大小。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论