删除冗余测试并清理 CI ignore 配置
建议合并,属于常规清理。可关注是否还有其他类似已跳过的测试需要一并清理,以保持代码库整洁。
A high-throughput and memory-efficient inference and serving engine for LLMs
删除冗余测试并清理 CI ignore 配置
建议合并,属于常规清理。可关注是否还有其他类似已跳过的测试需要一并清理,以保持代码库整洁。
CI 模型执行器测试超时失败快速反馈
应立即合入,作为 CI 防御性措施。建议后续将类似超时机制推广到其他 GPU/CUDA 密集的 CI 步骤。此 PR 逻辑清晰,改动安全。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-30 02:55
修复 MoE permute 中 torch 设备不一致崩溃
建议作为常规 bugfix 合并,改动简洁清晰。值得关注的是这种“设备字符串规范化”的模式——在 `__post_init__` 中从实际 tensor 推导设备,可作为后续类似初始化陷阱的参考修复方式。
原始 PR · 作者 czhu-cohere · 合并时间 2026-05-30 02:51
修复 Ray 多节点 placement group 分配崩溃
值得合并。该修复针对的是多节点 Ray 集群上的数据并行场景,代码简洁,修复明确,无副作用。
修复 DeepSeek V4 KV cache reshape 越界崩溃
值得所有使用 DeepSeek V4 或类似压缩 KV cache 模型的用户及时合并。代码改动很小,但根本原因分析深入,体现了对 KV cache 布局的理解,适合精读以学习类似问题的排查方法。
将异步 EPLB 设为默认,降低尾部延迟并消除调度停顿
值得精读。此 PR 代表了 EPLB 功能从试验性到默认启用的关键一步,体现了 vLLM 团队对 MoE 推理延迟优化的持续投入。设计上通过非阻塞通信以最小代价换取稳定的低延迟,是性能与实现复杂度之间的良好权衡。
WNA16 MoE 后端选择重构至 oracle 模块,新增 FlashInfer Monolithic 支持
值得精读,特别是 oracle 模式的设计和 kernel 实例存储位置的决策。关注 review 中关于 state sharing 的修改,以及后续的兼容性修复。
PP>1 时禁用 allreduce_rms_fusion 防死锁
本 PR 值得精读,尤其是 PR body 中对 FlashInfer 融合内核死锁根因的深度分析。变更虽小,但揭示了分布式系统下 CUDA 内核 launch 一致性的重要约束。相关回归测试可参考 #35960。
参与讨论