Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-05-31 05:34 同步状态:空闲 下次计划:2026-05-31 06:34

PR 列表

更多筛选
2026-04-24

#40673 [Bugfix] Fix DeepSeek V2-Lite Accuracy drop

原始 PR · 作者 bnellnm · 合并时间 2026-04-24 06:11

缺陷修复 重要性 6.17 洞察度 5.00

修复 DeepSeek V2-Lite 精度回退 bug

本 PR 的核心修复(增加 `is_sequence_parallel` 检查)方向正确,但引入的缓存优化引入了新的竞态风险。建议在合入后尽快通过后续 PR 修正 `_fused_output_is_reduced` 的初始化时机(如改为惰性计算或延迟到 kernel 就绪后设置)。值得关注的是将 SP reduction 纳入 runner 的设计讨论,这有助于统一 reduction 逻辑。

缺陷修复 重要性 6.77 洞察度 6.50

修复 MoE workspace 动态调整时的显存泄漏问题

值得精读。该 PR 解决了实际部署中遇到的显存泄漏问题,展示了在动态形状推理中管理 GPU 显存的典型权衡。建议关注 `empty_cache` 的性能影响,并评估后续是否在初始化阶段预留最坏情况 workspace 以避免运行时调整。

功能 重要性 3.81 洞察度 3.00

新增 sm_110 (Jetson Thor) 到 CUDA 13.0 构建目标

此 PR 变更简单明确,解决了 Jetson Thor 用户无法使用 vLLM 官方镜像的关键问题。建议快速合并,并注意保持配置文件间的架构列表一致性。如果未来有其他架构加入,应同步更新此处。

#40568 [MoE] Move xpu moe to fused_moe/experts/

原始 PR · 作者 Jackmin801 · 合并时间 2026-04-24 01:38

重构 重要性 6.03 洞察度 3.00

将 XPU MoE 实现移至 experts/ 子目录

该 PR 值得快速合并,它是 MoE 子系统代码组织改进的一部分。主要关注点是确保所有导入路径已正确更新,这已通过 CI 验证。

缺陷修复 重要性 7.18 洞察度 5.00

修复多节点 DP 中 Ray control bundle 漂移导致 actor 错位

值得精读。该 PR 展示了如何通过 Ray placement group 的节点亲和性选项解决分布式中 actor 调度错位问题,设计决策清晰,注释详细,适合作为分布式调度问题的参考。

功能 重要性 7.07 洞察度 6.00

支持多KV组负载的加载逻辑

该PR是HMA功能系列的一部分,逻辑清晰但涉及多个边界条件。建议关注其与后续PR的集成,特别是滑动窗口和SSM的支持将如何修改null块处理逻辑。对于不涉及HMA的开发者影响较小,但值得了解其循环聚合模式。

2026-04-23
重构 重要性 7.19 洞察度 6.00

重命名 MoE 专家参数映射函数为独立函数

值得精读。该 PR 是大规模 MoE 重构的铺垫,展示了如何通过细小步骤安全解耦核心模块。设计决策(预留临时转发函数、批量替换调用)可作为类似重构的参考。建议后续关注删除 `FusedMoE` 类的 PR,以完整理解架构演进。

基础设施 重要性 5.23 洞察度 4.00

拆分disaggregated CI测试到独立测试区域

建议在合并后立即跟进一个修复PR:添加设置`SW_ATTN=1`的CI步骤,或将gemma-3配置移回`tp_configs`并增加FlashInfer兼容性检查。同时考虑采纳gemini-code-assist的依赖文件建议。

参与讨论