#44005 [Bug] Fix torch device issue for MOE permute
原始 PR · 作者 yewentao256 · 合并时间 2026-05-30 02:55
修复 MoE permute 中 torch 设备不一致崩溃
建议作为常规 bugfix 合并,改动简洁清晰。值得关注的是这种“设备字符串规范化”的模式——在 `__post_init__` 中从实际 tensor 推导设备,可作为后续类似初始化陷阱的参考修复方式。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 yewentao256 · 合并时间 2026-05-30 02:55
修复 MoE permute 中 torch 设备不一致崩溃
建议作为常规 bugfix 合并,改动简洁清晰。值得关注的是这种“设备字符串规范化”的模式——在 `__post_init__` 中从实际 tensor 推导设备,可作为后续类似初始化陷阱的参考修复方式。
原始 PR · 作者 czhu-cohere · 合并时间 2026-05-30 02:51
修复 Ray 多节点 placement group 分配崩溃
值得合并。该修复针对的是多节点 Ray 集群上的数据并行场景,代码简洁,修复明确,无副作用。
修复 DeepSeek V4 KV cache reshape 越界崩溃
值得所有使用 DeepSeek V4 或类似压缩 KV cache 模型的用户及时合并。代码改动很小,但根本原因分析深入,体现了对 KV cache 布局的理解,适合精读以学习类似问题的排查方法。
将异步 EPLB 设为默认,降低尾部延迟并消除调度停顿
值得精读。此 PR 代表了 EPLB 功能从试验性到默认启用的关键一步,体现了 vLLM 团队对 MoE 推理延迟优化的持续投入。设计上通过非阻塞通信以最小代价换取稳定的低延迟,是性能与实现复杂度之间的良好权衡。
WNA16 MoE 后端选择重构至 oracle 模块,新增 FlashInfer Monolithic 支持
值得精读,特别是 oracle 模式的设计和 kernel 实例存储位置的决策。关注 review 中关于 state sharing 的修改,以及后续的兼容性修复。
PP>1 时禁用 allreduce_rms_fusion 防死锁
本 PR 值得精读,尤其是 PR body 中对 FlashInfer 融合内核死锁根因的深度分析。变更虽小,但揭示了分布式系统下 CUDA 内核 launch 一致性的重要约束。相关回归测试可参考 #35960。
原始 PR · 作者 taneem-ibrahim · 合并时间 2026-05-29 22:40
为核心池化方法添加单元测试
值得精读,尤其是 `_make_pooling_cursor` 和 `_make_metadata` 辅助函数的设计——它们封装了复杂的 `PoolingMetadata` 构造逻辑,使测试代码简洁且易于扩展。同时,测试中对 partial prefill 和 chunked prefill 的边界处理也值得参考。
原始 PR · 作者 chunyang-wen · 合并时间 2026-05-29 22:40
优化文档中首次出现 ITL 时给出全称
该 PR 属于纯文档改进,无需精读。但值得关注的是其遵循了“缩写首次出现时给出全称”的良好实践,可作为同类文档贡献的参考。
参与讨论