Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 09:45 同步状态:空闲 下次计划:2026-06-04 10:45

PR 列表

更多筛选
2026-05-30
基础设施 重要性 4.53 洞察度 4.00

CI 模型执行器测试超时失败快速反馈

应立即合入,作为 CI 防御性措施。建议后续将类似超时机制推广到其他 GPU/CUDA 密集的 CI 步骤。此 PR 逻辑清晰,改动安全。

缺陷修复 重要性 4.99 洞察度 4.00

修复 MoE permute 中 torch 设备不一致崩溃

建议作为常规 bugfix 合并,改动简洁清晰。值得关注的是这种“设备字符串规范化”的模式——在 `__post_init__` 中从实际 tensor 推导设备,可作为后续类似初始化陷阱的参考修复方式。

缺陷修复 重要性 5.86 洞察度 6.00

修复 DeepSeek V4 KV cache reshape 越界崩溃

值得所有使用 DeepSeek V4 或类似压缩 KV cache 模型的用户及时合并。代码改动很小,但根本原因分析深入,体现了对 KV cache 布局的理解,适合精读以学习类似问题的排查方法。

#43219 [EPLB] Make async EPLB default

原始 PR · 作者 ilmarkov · 合并时间 2026-05-30 02:07

功能 重要性 5.67 洞察度 5.00

将异步 EPLB 设为默认,降低尾部延迟并消除调度停顿

值得精读。此 PR 代表了 EPLB 功能从试验性到默认启用的关键一步,体现了 vLLM 团队对 MoE 推理延迟优化的持续投入。设计上通过非阻塞通信以最小代价换取稳定的低延迟,是性能与实现复杂度之间的良好权衡。

重构 重要性 9.18 洞察度 6.00

WNA16 MoE 后端选择重构至 oracle 模块,新增 FlashInfer Monolithic 支持

值得精读,特别是 oracle 模式的设计和 kernel 实例存储位置的决策。关注 review 中关于 state sharing 的修改,以及后续的兼容性修复。

2026-05-29
缺陷修复 重要性 5.94 洞察度 6.00

PP>1 时禁用 allreduce_rms_fusion 防死锁

本 PR 值得精读,尤其是 PR body 中对 FlashInfer 融合内核死锁根因的深度分析。变更虽小,但揭示了分布式系统下 CUDA 内核 launch 一致性的重要约束。相关回归测试可参考 #35960。

参与讨论