Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-13 20:41 同步状态:空闲 下次计划:2026-06-13 21:41

PR 列表

更多筛选
2026-05-18
缺陷修复 重要性 6.70 洞察度 7.00

Mamba单token extends重新分类为decode

对于关注disaggregated serving和Mamba模型的开发者,建议精读此PR,特别是`_compute_common_metadata`中的分类逻辑,以及如何通过修改`is_prefilling`来匹配CUDA graph调度。设计权衡(可读性 vs 简洁性、CPU同步警告)值得关注。此外,`MockMambaBuilder`工具类可推广用于其他测试。

#41154 [Model] Add Apertus Tool Parser

原始 PR · 作者 blancsw · 合并时间 2026-05-18 23:20

功能 重要性 8.77 洞察度 5.00

为Apertus模型添加工具调用解析器

建议认可该PR的设计和测试覆盖,作为未来新增工具解析器的模板。建议后续改进异常处理,将通用捕获改为具体异常。

重构 重要性 9.06 洞察度 6.00

重构 AWQ Marlin MoE 至模块化 WNA16 oracle

值得精读,尤其是如何将量化 MoE 接入模块化 FusedMoEKernel 框架。展示了后端选择和 kernel 构建的抽象设计。开发者在实现新量化方案时可参考此模式。

#42783 [Model Runner v2] Support update_config

原始 PR · 作者 mgoin · 合并时间 2026-05-18 22:26

缺陷修复 重要性 6.72 洞察度 5.00

v2 GPU Model Runner 补全 update_config 方法

值得精读,特别是对于理解 v1/v2 模型运行器委托模式和配置同步机制的开发者。此 PR 展示了如何在不破坏现有架构的前提下,为 v2 运行器补齐缺失的接口,并处理了配置对象在两层之间的同步问题。

缺陷修复 重要性 6.38 洞察度 5.00

末步 flush 所有待定 KV 转移作业

建议关注 `build_connector_meta` 中的 flush 触发逻辑,以及其与 `is_finished()` 的关联。对于维护 KV offloading 的读者,这个 PR 的 review 讨论具有参考价值。

参与讨论