Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 05:34 同步状态：空闲下次计划：2026-05-31 06:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-24

#40673 [Bugfix] Fix DeepSeek V2-Lite Accuracy drop

原始 PR · 作者 bnellnm · 合并时间 2026-04-24 06:11

缺陷修复重要性 6.17 洞察度 5.00

修复 DeepSeek V2-Lite 精度回退 bug

本 PR 的核心修复（增加 `is_sequence_parallel` 检查）方向正确，但引入的缓存优化引入了新的竞态风险。建议在合入后尽快通过后续 PR 修正 `_fused_output_is_reduced` 的初始化时机（如改为惰性计算或延迟到 kernel 就绪后设置）。值得关注的是将 SP reduction 纳入 runner 的设计讨论，这有助于统一 reduction 逻辑。

bugfixmoedeepseek

#39226 [Bugfix] Fix workspace resize leaking reserved GPU memory

原始 PR · 作者 czhu-cohere · 合并时间 2026-04-24 04:50

缺陷修复重要性 6.77 洞察度 6.50

修复 MoE workspace 动态调整时的显存泄漏问题

值得精读。该 PR 解决了实际部署中遇到的显存泄漏问题，展示了在动态形状推理中管理 GPU 显存的典型权衡。建议关注 `empty_cache` 的性能影响，并评估后续是否在初始化阶段预留最坏情况 workspace 以避免运行时调整。

bugfixmoeperformance

#39233 [NVIDIA] Add sm_110 (Jetson Thor) to CUDA 13.0 build targets

原始 PR · 作者 johnnynunez · 合并时间 2026-04-24 03:42

功能重要性 3.81 洞察度 3.00

新增 sm_110 (Jetson Thor) 到 CUDA 13.0 构建目标

此 PR 变更简单明确，解决了 Jetson Thor 用户无法使用 vLLM 官方镜像的关键问题。建议快速合并，并注意保持配置文件间的架构列表一致性。如果未来有其他架构加入，应同步更新此处。

nvidiaci/buildfeature

#40568 [MoE] Move xpu moe to fused_moe/experts/

原始 PR · 作者 Jackmin801 · 合并时间 2026-04-24 01:38

重构重要性 6.03 洞察度 3.00

将 XPU MoE 实现移至 experts/ 子目录

该 PR 值得快速合并，它是 MoE 子系统代码组织改进的一部分。主要关注点是确保所有导入路径已正确更新，这已通过 CI 验证。

refactorcleanupintel-gpu

#39167 [DP][Ray] Pin DP control bundle to same node as first GPU bundle

原始 PR · 作者 shaharmor98 · 合并时间 2026-04-24 01:21

缺陷修复重要性 7.18 洞察度 5.00

修复多节点 DP 中 Ray control bundle 漂移导致 actor 错位

值得精读。该 PR 展示了如何通过 Ray placement group 的节点亲和性选项解决分布式中 actor 调度错位问题，设计决策清晰，注释详细，适合作为分布式调度问题的参考。

bugfixray

#39402 [kv_offload+HMA][10/N]: Support load with multiple KV groups

原始 PR · 作者 orozery · 合并时间 2026-04-24 01:00

功能重要性 7.07 洞察度 6.00

支持多KV组负载的加载逻辑

该PR是HMA功能系列的一部分，逻辑清晰但涉及多个边界条件。建议关注其与后续PR的集成，特别是滑动窗口和SSM的支持将如何修改null块处理逻辑。对于不涉及HMA的开发者影响较小，但值得了解其循环聚合模式。

kv-connectorfeature

2026-04-23

#40671 [MoE Refactor] Rename FusedMoE.make_expert_params_mapping to fused_moe_make_expert_params_mapping

原始 PR · 作者 bnellnm · 合并时间 2026-04-23 23:22

重构重要性 7.19 洞察度 6.00

重命名 MoE 专家参数映射函数为独立函数

值得精读。该 PR 是大规模 MoE 重构的铺垫，展示了如何通过细小步骤安全解耦核心模块。设计决策（预留临时转发函数、批量替换调用）可作为类似重构的参考。建议后续关注删除 `FusedMoE` 类的 PR，以完整理解架构演进。

refactormoecleanup

#40623 [CI] Split disaggregated tests into own test-area

原始 PR · 作者 NickLucche · 合并时间 2026-04-23 23:20

基础设施重要性 5.23 洞察度 4.00

拆分disaggregated CI测试到独立测试区域

建议在合并后立即跟进一个修复PR：添加设置`SW_ATTN=1`的CI步骤，或将gemma-3配置移回`tp_configs`并增加FlashInfer兼容性检查。同时考虑采纳gemini-code-assist的依赖文件建议。

ci/buildkv-connectorrefactor

第 135 / 253 页 · 共 2019 条

上一页 1 … 133 134 135 136 137 … 253 下一页