Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 10:58 同步状态:空闲 下次计划:2026-06-04 11:58

PR 列表

更多筛选
2026-05-11
重构 重要性 9.00 洞察度 4.00

将各类 MoE 专家实现统一迁移至 fused_moe/experts/ 目录

该 PR 是典型的代码模块化重构案例,值得关注以下几点:1) 如何通过子目录组织不同的 expert 实现;2) 如何利用包入口(`__init__.py`)统一暴露符号,隐藏内部实现细节;3) 合并多个同主题 PR 的协作模式。建议架构师和需要扩展 MoE 相关功能的开发者精读。

2026-05-10

#41694 [DSV4] Add PP support for deepseek-v4

原始 PR · 作者 Isotr0py · 合并时间 2026-05-10 23:47

功能 重要性 6.82 洞察度 6.00

为 DeepSeek-V4 添加流水线并行支持

值得精读,展示了如何为复杂模型(含多流 hidden_states 和特殊注意力架构)添加 PP 支持,可作为其他模型 PP 集成的参考模板。

缺陷修复 重要性 4.42 洞察度 5.00

修复 causal_conv1d 超长序列 IMA 问题

值得 merge:改动简洁、针对性强,有完整的问题复现和性能验证。可参考此 PR 的模式,检查其他 Triton kernel 中是否也存在类似 int32 溢出风险。

重构 重要性 7.16 洞察度 5.00

统一 OffloadingManager 完整接口,为 touch/complete_load/complete_store 添加 ReqContext 参数

值得精读,尤其关注抽象基类接口演进方式:先为核心方法引入上下文参数,再逐步扩展到全部回调方法,保持渐进式兼容。此模式适合大型分布式系统的接口标准化。

缺陷修复 重要性 5.51 洞察度 4.00

修复 CPU 推测解码因 kernel 签名缺失崩溃

建议精读,这是一个展示如何通过最小签名变更加入兼容层以修复跨模块调用错误的优秀案例。对于维护 CPU 或扩展 spec decode 的开发者尤其值得关注。

缺陷修复 重要性 6.15 洞察度 6.00

限制 Triton 注意力块大小为 128 修复 ROCm 共享内存溢出

值得仔细阅读,尤其是 `has_native_kv_cache_layout` 的设计和 TRITON_BLOCK_SIZE 硬上限的权衡。展示了如何通过块布局检测与内核选择协同解决硬件兼容性问题,对理解 ROCm 注意力实现和 Hybrid Mamba 支持有参考价值。

参与讨论