Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-13 17:30 同步状态:空闲 下次计划:2026-06-13 18:30

PR 列表

更多筛选
2026-05-19
缺陷修复 重要性 6.98 洞察度 5.00

修复 Humming MoE 的 SiLU 激活值 clamp 缺失

值得精读。这是一个典型的“配置丢失”导致的精度 bug 修复,展示了量化配置如何影响模型输出质量。`swiglu_limit_func` 的调用位置、`FusedMoEQuantConfig` 中 clamp 参数的传播路径都很清晰,可作为类似 bug 的修复模板。

缺陷修复 重要性 6.46 洞察度 5.00

修复 DSV4 MTP HC 状态默认值及 ROCm 兼容性

此 PR 属于典型的多平台适配回归修复,体量小但关键。建议阅读以了解:1) `torch.compile` 对方法签名的严格性;2) 跨平台抽象后如何确保所有子路径参数默认值一致。值得精读并作为后续类似问题的检查清单。

性能优化 重要性 7.63 洞察度 5.00

重新启用 FlashInfer 自动调优并广播策略至所有 rank

若关注 FlashInfer kernel 性能优化或 vLLM 配置系统,建议仔细阅读该 PR。其广播策略设计值得参考,临时文件处理方面也有改进空间。

2026-05-18
缺陷修复 重要性 5.91 洞察度 3.00

修复因果模型 `--convert` 未与 `--runner` 同时传递时的崩溃

值得合并,修复了显式的用户错误(缺少 `--runner`)导致的崩溃,且与文档行为一致。变更极小,逻辑清晰,应无回归风险。

缺陷修复 重要性 6.70 洞察度 7.00

Mamba单token extends重新分类为decode

对于关注disaggregated serving和Mamba模型的开发者,建议精读此PR,特别是`_compute_common_metadata`中的分类逻辑,以及如何通过修改`is_prefilling`来匹配CUDA graph调度。设计权衡(可读性 vs 简洁性、CPU同步警告)值得关注。此外,`MockMambaBuilder`工具类可推广用于其他测试。

#41154 [Model] Add Apertus Tool Parser

原始 PR · 作者 blancsw · 合并时间 2026-05-18 23:20

功能 重要性 8.77 洞察度 5.00

为Apertus模型添加工具调用解析器

建议认可该PR的设计和测试覆盖,作为未来新增工具解析器的模板。建议后续改进异常处理,将通用捕获改为具体异常。

重构 重要性 9.06 洞察度 6.00

重构 AWQ Marlin MoE 至模块化 WNA16 oracle

值得精读,尤其是如何将量化 MoE 接入模块化 FusedMoEKernel 框架。展示了后端选择和 kernel 构建的抽象设计。开发者在实现新量化方案时可参考此模式。

参与讨论