Prhub
← 返回仓库列表

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-04-18 19:11 同步状态:空闲 下次计划:2026-04-18 20:11

PR 列表

已合并 790 · 已分析 790
更多筛选
2026-03-21
缺陷修复 重要性 6.00 洞察度 5.00

修复混合模型使用 --calculate-kv-scales 时导致 FP8 KV 缓存比例损坏的 bug。

建议阅读此 PR,以了解混合模型与量化校准的交互问题,以及如何安全地处理弃用选项。重点关注 `HybridAttentionMambaModelConfig.verify_and_update_config()` 方法的设计决策,包括警告日志和配置修改的逻辑。

2026-03-20
缺陷修复 重要性 6.00 洞察度 5.00

修复 Eagle 投机解码在 CUDA 图重放时草稿 logits 未写入的问题,确保概率拒绝采样的正确性。

对于使用 Eagle 投机解码和 CUDA 图的工程师,建议精读此 PR,特别关注状态从 RequestState 移至 Speculator 的设计决策,以及 review 中关于数值精度的讨论。同时,可参考相关 PR 如 38045 以了解拒绝采样功能的更多上下文。

#36976 [Bugfix][LoRA] Fix Qwen35 LoRA

作者 jeejeelee · 合并时间 2026-03-20 11:09

缺陷修复 重要性 5.00 洞察度 6.00

修复Qwen3.5模型的LoRA适配器支持,解决IndexError问题。

该PR值得精读,特别是模型层LoRA兼容性设计决策,如分离in_proj_qkvz层以处理GDN结构,这为其他支持LoRA的模型提供参考。同时关注gemini-code-assist[bot]提出的packed_modules_mapping修复是否已正确实施。

缺陷修复 重要性 5.41 洞察度 4.00

修复 Qwen3.5 GDN 层在量化模型下因 MergedColumnParallelLinear 无 weight 属性而抛出的 AttributeError。

建议关注 Qwen 模型维护和量化支持的开发者精读此 PR,以了解 MergedColumnParallelLinear 在量化时的属性访问差异和形状计算调整。变更虽小,但揭示了量化层与标准线性层之间的重要设计权衡。

#36294 [MoE Refactor] Rename "naive" all2all backend

作者 bnellnm · 合并时间 2026-03-20 03:50

重构 重要性 6.80 洞察度 5.00

移除MoE层的'naive' all2all后端选项,并重命名相关属性。

建议精读此PR以了解MoE后端配置的演进,特别是属性重命名的设计决策,这有助于未来类似重构。关注`vllm/model_executor/layers/fused_moe/config.py`中的属性变更,以及配置验证中的fallback机制,可作为清理已弃用选项的参考范例。

2026-03-19
缺陷修复 重要性 5.00 洞察度 5.00

修复ROCm平台MoRI与AITER后端FP8量化分发不兼容的bug。

建议精读此PR,了解MoE架构中FP8量化处理的设计权衡,特别是如何通过条件化属性和异常移除实现后端兼容。关注AiterExperts.expects_unquantized_inputs的条件逻辑和MoriPrepareAndFinalize.prepare中的量化跳过机制。

缺陷修复 重要性 5.00 洞察度 5.00

扩展性能指标模块对 22 种量化方法的支持,修复量化模型 MFU 报告失败问题。

建议技术管理者和工程师精读此 PR,以了解如何处理量化配置解析的扩展性问题。重点关注 `_QUANT_WEIGHT_BYTE_SIZE` 字典的设计决策,它提供了一种集中管理量化方法属性的方式。此外,review 中的测试优化建议值得关注,可作为代码重构的参考。

参与讨论