Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-18
性能优化 重要性 6.96 洞察度 7.00

将 SiLU+Mul 与 FP8 块量化融合,提升 MiniMax-M2 MoE 性能

值得精读,尤其是条件融合的设计模式。虽然 review 中暴露了 block_shape 类型鲁棒性等细节问题,但整体思路清晰。建议后续开发者注意将 `self.block_shape` 可能为 None 或 tuple 的类型信息明确化,并考虑为 DeepGEMM E8M0 路径添加等效的 fused kernel 或统一量化接口。

性能优化 重要性 7.24 洞察度 6.00

为torch.compile全图模式添加Inductor物化启发式补丁

值得阅读其成本模型的设计思路(简洁有效),但注意该PR已被回滚。建议直接使用PyTorch 2.12(已包含上游官方修复),或等待vllm团队重新评估后修复已知问题并重新合入。

缺陷修复 重要性 7.59 洞察度 5.00

修复 ROCm 上 DeepSeek V4 功能与高并发精度问题

值得所有 ROCm + DeepSeek V4 用户关注。设计决策(AITER 回退、topk 统一入口)对类似平台适配有参考价值。建议阅读 `rocm_aiter_mla_sparse.py` 中的重构细节。

2026-05-17

#42725 [XPU] fix weight scale shape

原始 PR · 作者 zufangzhu · 合并时间 2026-05-17 16:55

缺陷修复 重要性 5.34 洞察度 4.00

修复 XPU FP8 weight_scale 张量形状

建议精读以了解 XPU FP8 后端的参数处理细节。应关注 review 中关于条件不一致的问题,并考虑在后续 PR 中修复:将 weight_scale 的转置放入与 weight 相同的 if 块中,确保两者布局始终同步。

#42710 [MRV2][XPU] add Model Runner V2 log

原始 PR · 作者 zhenwei-intel · 合并时间 2026-05-17 12:15

功能 重要性 4.24 洞察度 2.00

XPU Worker 新增 V2 Model Runner 日志

值得合并。变更简洁、无风险,为 XPU 后端调试提供便利。可作为 V2 Model Runner 迁移状态的一个轻量级 markers。

#41680 Support bf16 for mamba ssm cache

原始 PR · 作者 qizzzh · 合并时间 2026-05-17 08:54

功能 重要性 4.18 洞察度 2.00

Mamba SSM 缓存支持 bf16

该 PR 简单明确,建议合并。后续可考虑补充单元测试验证 `bfloat16` 选项在 Mamba 缓存中的实际可用性。

缺陷修复 重要性 5.59 洞察度 3.00

修复 Qwen3.5-MTP 与 Qwen3-VL MoE 权重加载中参数丢失

这是一个明确且低风险的 bugfix,值得合并。代码虽少,但体现了对数据契约一致性的重视。建议在类似模型(如其他 MoE 模型)中检查是否有相同的调用模式,统一修复以避免遗留。

参与讨论