Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 10:58 同步状态：空闲下次计划：2026-06-04 11:58

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-14

#41736 [MM][CG] Support ViT CG for Qwen2-VL

原始 PR · 作者 johncalesp · 合并时间 2026-05-14 01:52

功能重要性 8.04 洞察度 6.00

为 Qwen2-VL ViT 添加 CUDA Graph 支持，TTFT 降低约 51%

此 PR 是实现多模态 CUDA Graph 支持的优秀范例，展示了如何为视觉模型适配 `SupportsEncoderCudaGraph` 协议。对于需要为其他模型启用类似优化的开发者，本 PR 的设计模式值得参考。建议精读 `qwen2_vl.py` 中 `prepare_encoder_metadata` 和 `forward` 的修改。

featuremulti-modalityqwen

#39949 [Spec Decode] Support hybrid attention models in extract_hidden_states

原始 PR · 作者 mgoin · 合并时间 2026-05-14 01:45

功能重要性 7.90 洞察度 7.00

支持混合注意力模型的隐藏状态提取

值得精读的设计决策：HMA 支持检查的泛化机制（通过 SupportsHMA 接口和 supports_hma 函数）使 KV connector 能够声明兼容性；HiddenStateCacheSpec 的隔离分组方式使纯缓存层不干扰正常缓存分配。建议关注后续对 max_memory_usage_bytes 的 CP 修复。

speculative-decodingv1kv-connector

#42250 [Bugfix][Model] Gemma4 MoE routing closure captures per_expert_scale, breaking functional_call substitution

原始 PR · 作者 NoeliaBentancor · 合并时间 2026-05-14 01:43

缺陷修复重要性 5.76 洞察度 6.00

修复 Gemma4 MoE 路由闭包捕获参数问题

值得精读，特别是了解 Python 闭包捕获与 PyTorch functional API 交互的常见陷阱。该 PR 展示了如何通过避免变量捕获来确保参数替换正确工作。

bugfixmodelmoe

#39487 [Feature] Support custom callable proposer backend for speculative decoding

原始 PR · 作者 CynicDora · 合并时间 2026-05-14 00:53

功能重要性 8.20 洞察度 5.00

支持自定义类作为推测解码 draft 生成器

值得精读。此 PR 展示了如何为 vLLM 添加可插拔的推测解码策略，其设计决策（工厂函数 vs 包装类、基于 `model` 字段复用）以及审阅过程中的权衡，对理解 vLLM 的模块化扩展有参考价值。

featurespeculative-decodingv1

2026-05-13

#42456 [Feature] Support compile mode for batch invariance on SM80

原始 PR · 作者 yewentao256 · 合并时间 2026-05-13 23:02

功能重要性 4.86 洞察度 4.00

A100 启用 compile 模式 batch invariance 测试

建议精读 PR#27842 和关联 Issue#27433 以了解 batch invariance 的整体设计。该 PR 本身是功能演进的里程碑，值得关注后续 SM80 上 compile 模式的实际效果。

featuretestv1

#40020 [kv_offload] Add multi-tier KV cache offloading framework

原始 PR · 作者 ronensc · 合并时间 2026-05-13 22:21

功能重要性 9.36 洞察度 7.00

新增多级 KV 缓存卸载框架，支持链式二级存储/网络

值得精读，特别是抽象接口设计和异步批处理模式。可关注层次化管理器的错误处理和生命周期管理。

featurev1kv-connector

#41946 [Bugfix] [ROCm] [DSV4] [Perf] Add aiter mhc support

原始 PR · 作者 tjtanaa · 合并时间 2026-05-13 21:43

缺陷修复重要性 9.18 洞察度 6.00

集成 AITER 的 mHC 内核，优化 ROCm 上 DeepSeek-V4 推理性能并修复路径问题

建议仔细阅读本 PR，特别是 `CustomOp` 的分派模式、`_tilelang_ops.py` 的懒加载设计以及 `_forward_rocm` 与 `_forward_cuda` 的分离。这些设计决策对维护多后端 kernel 具有参考价值。对于性能敏感场景，应跟踪 AITER 新版本以移除当前 workaround。

rocmdeepseekperformance

#38896 [XPU] [CT] Enable CT W4A4MxFp4 path and add xpu kernel

原始 PR · 作者 zufangzhu · 合并时间 2026-05-13 21:43

功能重要性 8.04 洞察度 4.00

新增XPU MXFP4 W4A4内核并注册到调度

该PR设计清晰，代码量适中，解决了XPU MXFP4内核缺失的核心问题。建议合并后补充单元测试（覆盖正常输入、边界形状、空bias等情况）和集成测试（接入模型推理验证）。review中提出的部分问题（如KeyError、基类replace_parameter用法）虽在最终代码中部分解决，但应确保在其他平台调用时不会崩溃，或提供明确的错误路径。

featurekernelquantization

第 84 / 270 页 · 共 2154 条

上一页 1 … 82 83 84 85 86 … 270 下一页