Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 10:58 同步状态：空闲下次计划：2026-06-04 11:58

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-11

#41979 [MoE] Move various experts classes to fused_moe/experts/

原始 PR · 作者 bnellnm · 合并时间 2026-05-11 07:54

重构重要性 9.00 洞察度 4.00

将各类 MoE 专家实现统一迁移至 fused_moe/experts/ 目录

该 PR 是典型的代码模块化重构案例，值得关注以下几点：1) 如何通过子目录组织不同的 expert 实现；2) 如何利用包入口（`__init__.py`）统一暴露符号，隐藏内部实现细节；3) 合并多个同主题 PR 的协作模式。建议架构师和需要扩展 MoE 相关功能的开发者精读。

refactormoecleanup

2026-05-10

#41499 [Performance] Make safetensors checkpoint prefetch settings configurable

原始 PR · 作者 mmangkad · 合并时间 2026-05-10 23:55

性能优化重要性 7.84 洞察度 6.00

使 safetensors 检查点预取参数可配置

值得精读，尤其是参数化设计模式和并发原语替换的讨论。建议后续补充单元测试和性能基准数据。

performancerefactorconfig

#41694 [DSV4] Add PP support for deepseek-v4

原始 PR · 作者 Isotr0py · 合并时间 2026-05-10 23:47

功能重要性 6.82 洞察度 6.00

为 DeepSeek-V4 添加流水线并行支持

值得精读，展示了如何为复杂模型（含多流 hidden_states 和特殊注意力架构）添加 PP 支持，可作为其他模型 PP 集成的参考模板。

featuredeepseekmodel

#41617 [Bugfix][Mamba] IMA in causal_conv1d kernel for long sequences

原始 PR · 作者 Flink-ddd · 合并时间 2026-05-10 20:38

缺陷修复重要性 4.42 洞察度 5.00

修复 causal_conv1d 超长序列 IMA 问题

值得 merge：改动简洁、针对性强，有完整的问题复现和性能验证。可参考此 PR 的模式，检查其他 Triton kernel 中是否也存在类似 int32 溢出风险。

bugfixmambakernel

#41366 [KV Offload] Pass ReqContext to touch(), complete_load(), and complete_store()

原始 PR · 作者 ronensc · 合并时间 2026-05-10 20:09

重构重要性 7.16 洞察度 5.00

统一 OffloadingManager 完整接口，为 touch/complete_load/complete_store 添加 ReqContext 参数

值得精读，尤其关注抽象基类接口演进方式：先为核心方法引入上下文参数，再逐步扩展到全部回调方法，保持渐进式兼容。此模式适合大型分布式系统的接口标准化。

v1refactorkv-connector

#41932 [CPU] Fix spec decode kernel signatures for synthetic mode compatibility

原始 PR · 作者 jmamou · 合并时间 2026-05-10 20:07

缺陷修复重要性 5.51 洞察度 4.00

修复 CPU 推测解码因 kernel 签名缺失崩溃

建议精读，这是一个展示如何通过最小签名变更加入兼容层以修复跨模块调用错误的优秀案例。对于维护 CPU 或扩展 spec decode 的开发者尤其值得关注。

bugfixcpuspeculative-decoding

#37912 [Bugfix] Fuse Qwen3.5 in_qkvz_proj forwarding with LoRA enabled

原始 PR · 作者 Isotr0py · 合并时间 2026-05-10 18:59

缺陷修复重要性 7.67 洞察度 6.00

统一 Qwen3.5 LoRA 前向路径

建议重点关注 LoRA 场景下的回归测试，特别是 TP>1 的配置。设计决策 '将复杂性转移到 LoRA 层' 值得在其他类似模型中复用。

bugfixqwenlora

#38502 [ROCm] Cap Triton paged attention block size to fix ROCm shared memory OOM

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-05-10 18:03

缺陷修复重要性 6.15 洞察度 6.00

限制 Triton 注意力块大小为 128 修复 ROCm 共享内存溢出

值得仔细阅读，尤其是 `has_native_kv_cache_layout` 的设计和 TRITON_BLOCK_SIZE 硬上限的权衡。展示了如何通过块布局检测与内核选择协同解决硬件兼容性问题，对理解 ROCm 注意力实现和 Hybrid Mamba 支持有参考价值。

rocmbugfixv1

第 98 / 270 页 · 共 2154 条

上一页 1 … 96 97 98 99 100 … 270 下一页