Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 09:45 同步状态:空闲 下次计划:2026-06-04 10:45

PR 列表

更多筛选
2026-05-18

#41710 fix: remove unused norm for dpskv4

原始 PR · 作者 inisis · 合并时间 2026-05-18 18:33

缺陷修复 重要性 5.18 洞察度 3.00

移除 DPSKV4 未使用的 k_norm LayerNorm

该 PR 值得合并,是一个正确的清理修复。建议关注后续是否还有其他未使用的层或权重需要清理,以保持代码整洁。

#41922 [CPU] Add MXFP4 W4A16 MoE support

原始 PR · 作者 yuwenzho · 合并时间 2026-05-18 18:04

功能 重要性 9.00 洞察度 6.00

CPU 新增 MXFP4 W4A16 融合 MoE 内核支持

值得精读。该 PR 完整演示了如何在 vLLM 模块化 MoE 架构中集成一个新的量化后端(MXFP4),并涉及 C++ 模板泛化、Python 层路由、测试重构等最佳实践。`CPUExpertsMxfp4` 类的接口实现方式可作为类似后端的参考。

#42666 [CPU Backend] Improve cpu thread utilization

原始 PR · 作者 tianmu-li · 合并时间 2026-05-18 18:04

性能优化 重要性 5.49 洞察度 4.00

优化 CPU 后端线程利用率

推荐合并。这是一个精准且经过基准验证的性能优化,改动量小(+4/-6),风险极低。对于 vLLM CPU 用户,建议关注此 PR 后的性能变化。

功能 重要性 8.31 洞察度 5.00

为 AMX CPU 添加融合 GDN 算子与因果卷积内核

值得精读以学习 AMX 算子集成模式(Python 绑定 + C++ 注册 + 平台检测),但合并前引入的严重 review 意见未解决,建议在实际部署前对 4 个风险点进行二次修复并补充单元测试。

#42527 [Kernel] Pack topk id/weights triton kernel

原始 PR · 作者 jeejeelee · 合并时间 2026-05-18 18:04

性能优化 重要性 6.91 洞察度 4.00

Triton内核打包topk id/权重,支持GDC

此PR对于了解Triton内核封装和GDC/PDL在vLLM中的应用有参考价值。建议关注MoE路径性能回归测试。整体改动小,可快速合并。

缺陷修复 重要性 5.39 洞察度 4.00

CPU attention 后端显式声明 HND kv cache 布局

此 PR 值得精读,因为它体现了 vLLM 中 kv cache 布局声明的设计模式。变更虽小,但修复了一个潜在的隐晦 bug,对 CPU 推理稳定性有重要意义。

#42582 delete xpu ci

原始 PR · 作者 wendyliu235 · 合并时间 2026-05-18 16:36

基础设施 重要性 4.08 洞察度 2.00

删除重复的 XPU CI 配置

该 PR 为基础设施清理变更,技术含量低,但体现了 CI 治理思路。建议阅读以了解 XPU CI 的迁移背景。

参与讨论