#42945 [Bugfix][KV Offload] count appended GPU blocks in store group_sizes
原始 PR · 作者 kfirtoledo · 合并时间 2026-05-18 19:36
修复 KV Offload 计数 bug,1 行代码变动
建议快速合并。该 PR 虽小但精准,修复了一个真实触发断言的 bug,值得关注其背后的窗口跨越边界场景设计约束。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 kfirtoledo · 合并时间 2026-05-18 19:36
修复 KV Offload 计数 bug,1 行代码变动
建议快速合并。该 PR 虽小但精准,修复了一个真实触发断言的 bug,值得关注其背后的窗口跨越边界场景设计约束。
移除 DPSKV4 未使用的 k_norm LayerNorm
该 PR 值得合并,是一个正确的清理修复。建议关注后续是否还有其他未使用的层或权重需要清理,以保持代码整洁。
CPU 新增 MXFP4 W4A16 融合 MoE 内核支持
值得精读。该 PR 完整演示了如何在 vLLM 模块化 MoE 架构中集成一个新的量化后端(MXFP4),并涉及 C++ 模板泛化、Python 层路由、测试重构等最佳实践。`CPUExpertsMxfp4` 类的接口实现方式可作为类似后端的参考。
优化 CPU 后端线程利用率
推荐合并。这是一个精准且经过基准验证的性能优化,改动量小(+4/-6),风险极低。对于 vLLM CPU 用户,建议关注此 PR 后的性能变化。
原始 PR · 作者 bigPYJ1151 · 合并时间 2026-05-18 18:04
为 AMX CPU 添加融合 GDN 算子与因果卷积内核
值得精读以学习 AMX 算子集成模式(Python 绑定 + C++ 注册 + 平台检测),但合并前引入的严重 review 意见未解决,建议在实际部署前对 4 个风险点进行二次修复并补充单元测试。
Triton内核打包topk id/权重,支持GDC
此PR对于了解Triton内核封装和GDC/PDL在vLLM中的应用有参考价值。建议关注MoE路径性能回归测试。整体改动小,可快速合并。
CPU attention 后端显式声明 HND kv cache 布局
此 PR 值得精读,因为它体现了 vLLM 中 kv cache 布局声明的设计模式。变更虽小,但修复了一个潜在的隐晦 bug,对 CPU 推理稳定性有重要意义。
原始 PR · 作者 wendyliu235 · 合并时间 2026-05-18 16:36
删除重复的 XPU CI 配置
该 PR 为基础设施清理变更,技术含量低,但体现了 CI 治理思路。建议阅读以了解 XPU CI 的迁移背景。
参与讨论