Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-13 21:47 同步状态:空闲 下次计划:2026-06-13 22:47

PR 列表

更多筛选
2026-06-05
缺陷修复 重要性 5.86 洞察度 4.00

修复 Gemma4 Unified 视觉编码器被量化的问题

值得精读,这是一个典型的由缺少 `prefix` 导致量化模块无法正确匹配忽略规则的问题。对于有量化忽略列表的模型实现,确保正确传递 `prefix` 是良好实践。

#44569 [DSV4] Refactor DeepseekV4Attention

原始 PR · 作者 WoosukKwon · 合并时间 2026-06-05 11:23

重构 重要性 9.00 洞察度 6.00

[DSV4] 重构 DeepseekV4Attention 类体系,统一平台分派

推荐阅读,尤其适合关注多平台代码组织设计的学习者。基类 + 抽象方法 + 类变量配置的模式值得借鉴。此外,`ops/o_proj.py` 的提取是非侵入式重构的样例。建议阅读后关注后续是否会有其他模型采用类似架构。

#42139 [XPU][MoE] support block_fp8_moe on xpu

原始 PR · 作者 zufangzhu · 合并时间 2026-06-05 08:36

功能 重要性 6.89 洞察度 5.00

XPU 支持 Block FP8 MoE 量化

该 PR 值得快速合入,变更简洁且聚焦。建议关注后续是否添加针对 Block FP8 的专项测试以覆盖更多量化组合。设计上继承现有架构,可读性强。

功能 重要性 6.92 洞察度 4.00

为Rust前端添加language-model-only标志跳过多模态加载

设计简洁,可以安全合并。对于仅使用语言模型的用户,推荐启用该标志以提高启动可靠性。值得关注的是如何在 Rust 和 Python 之间一致地传递参数的模式。

缺陷修复 重要性 4.89 洞察度 4.00

修复 DeepSeek V4 RoPE 缓存在 meta device 上的构造失败

该 PR 是经典的一行 bugfix,虽小但修复了深层 device 一致性问题。值得精读,尤其是理解 `torch.device` 在 meta device 场景下的传播模式。

重构 重要性 6.18 洞察度 6.00

统一 KDA 卷积状态为一个缓存

建议精读。这是一个典型的数据结构统一重构,展示了如何在不改变内核计算逻辑的前提下,通过调整状态分组来适配更通用的架构。对于理解 vLLM 中 Mamba 系列(特别是 GDN/KDA)的缓存设计很有帮助。

参与讨论