Prhub

vllm-project/vllm · 标签视图

标签列表

聚合结果

refactor 相关 PR

2026-06-04

分离 speculator prefill CUDA graph 的 attention state

强烈建议精读本 PR,尤其是 `cudagraph_utils.py` 中的设计。它清晰地展示了如何处理 CUDA graph capture 中的 lazy initialization 问题,是一种可复用的模式。其他需要实现自定义 `CudaGraphManager` 的开发者应参考此模式。

重构 重要性 7.28 洞察度 5.00

融合residual支持到batch-invariant RMS norm

值得精读,特别是关于批处理不变性归一化的设计模式。合并函数并支持可选residual的做法简洁清晰,可作为类似重构的参考。

#44122 [Refactor] Remove dead code fp quant

原始 PR · 作者 yewentao256 · 合并时间 2026-06-04 02:22

重构 重要性 6.06 洞察度 2.00

移除 FPQuant 中的死代码

建议合并,属于常规代码清理,无技术风险,有助于保持代码库整洁。

迁移四组 CUDA 内核到 libtorch stable ABI

值得精读,特别是 stable ABI 适配的模式(如使用 STD_TORCH_CHECK、STABLE_TORCH_LIBRARY_FRAGMENT 和 TORCH_BOX 宏)。对于贡献者,了解这些模式有助于参与后续迁移步骤。设计上保留 ROCm 专用 QuickReduce 在 legacy 是一个透明决策,需关注后续迁移计划。

#37505 [KVCache] Support Pluggable KVCacheSpec

原始 PR · 作者 MengqingCao · 合并时间 2026-06-04 00:05

功能 重要性 9.36 洞察度 7.00

引入可插拔 KVCacheSpec 注册机制,支持外部自定义 Spec 和 Manager

此 PR 定义了一个重要的架构扩展点,设计清晰(注册表 + 平台钩子 + per-spec 方法),值得团队精读并作为未来插件系统的参考。特别关注 `KVCacheSpecRegistry` 的 MRO 查找策略、`uniform_type_base_spec` 的分组语义以及 `check_kv_cache_spec_registry` 的防御性设计。对外部平台开发者来说,这是一个必须了解的变更。

2026-06-03
重构 重要性 5.31 洞察度 4.00

标准化 CPU KV cache 布局为 blocks-first

建议精读以了解 KV cache 布局标准化的实现方式。对于 CPU 后端开发者,此变更是朝着统一后端接口迈出的重要一步;对于其他后端开发者,可作为参考。