Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-13 17:30 同步状态：空闲下次计划：2026-06-13 18:30

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-19

#42541 [Bugfix] fix swiglu limit issue for humming backend + deepseek v4

原始 PR · 作者 jinzhen-lin · 合并时间 2026-05-19 01:32

缺陷修复重要性 6.98 洞察度 5.00

修复 Humming MoE 的 SiLU 激活值 clamp 缺失

值得精读。这是一个典型的“配置丢失”导致的精度 bug 修复，展示了量化配置如何影响模型输出质量。`swiglu_limit_func` 的调用位置、`FusedMoEQuantConfig` 中 clamp 参数的传播路径都很清晰，可作为类似 bug 的修复模板。

bugfixdeepseekmoe

#42930 [Bugfix] Fix DSV4 MTP after ROCm mHC integration

原始 PR · 作者 mmangkad · 合并时间 2026-05-19 01:02

缺陷修复重要性 6.46 洞察度 5.00

修复 DSV4 MTP HC 状态默认值及 ROCm 兼容性

此 PR 属于典型的多平台适配回归修复，体量小但关键。建议阅读以了解：1) `torch.compile` 对方法签名的严格性；2) 跨平台抽象后如何确保所有子路径参数默认值一致。值得精读并作为后续类似问题的检查清单。

bugfixdeepseekrocm

#42857 [Perf] Re-enable flashinfer autotune by default and cleanup

原始 PR · 作者 wzhao18 · 合并时间 2026-05-19 00:12

性能优化重要性 7.63 洞察度 5.00

重新启用 FlashInfer 自动调优并广播策略至所有 rank

若关注 FlashInfer kernel 性能优化或 vLLM 配置系统，建议仔细阅读该 PR。其广播策略设计值得参考，临时文件处理方面也有改进空间。

performancenvidiakernel

2026-05-18

#42935 Fix `--convert` passed without `--runner` on causal models

原始 PR · 作者 hmellor · 合并时间 2026-05-18 23:56

缺陷修复重要性 5.91 洞察度 3.00

修复因果模型 `--convert` 未与 `--runner` 同时传递时的崩溃

值得合并，修复了显式的用户错误（缺少 `--runner`）导致的崩溃，且与文档行为一致。变更极小，逻辑清晰，应无回归风险。

bugfixpoolingfrontend

#42778 [Model Runner V2] Fix prompt logprobs calculation `Sizes of tensors must match` error

原始 PR · 作者 yewentao256 · 合并时间 2026-05-18 23:27

缺陷修复重要性 5.55 洞察度 4.00

修复 V2 模型运行器中 prompt logprobs 张量形状不匹配错误

值得精读用于理解 Model Runner V2 中 prompt logprobs 的处理流程，特别是跨请求变长张量切片的处理模式。该 PR 本身逻辑清晰简单，可作为参考学习。

bugfixv1test

#42430 [Bugfix] mamba: run single-token extends as decodes

原始 PR · 作者 netanel-haber · 合并时间 2026-05-18 23:26

缺陷修复重要性 6.70 洞察度 7.00

Mamba单token extends重新分类为decode

对于关注disaggregated serving和Mamba模型的开发者，建议精读此PR，特别是`_compute_common_metadata`中的分类逻辑，以及如何通过修改`is_prefilling`来匹配CUDA graph调度。设计权衡（可读性 vs 简洁性、CPU同步警告）值得关注。此外，`MockMambaBuilder`工具类可推广用于其他测试。

bugfixv1attention

#41154 [Model] Add Apertus Tool Parser

原始 PR · 作者 blancsw · 合并时间 2026-05-18 23:20

功能重要性 8.77 洞察度 5.00

为Apertus模型添加工具调用解析器

建议认可该PR的设计和测试覆盖，作为未来新增工具解析器的模板。建议后续改进异常处理，将通用捕获改为具体异常。

featuretool-callingmodel

#42483 Refactor AWQ Marlin MoE onto modular WNA16 oracle

原始 PR · 作者 bedeks · 合并时间 2026-05-18 23:02

重构重要性 9.06 洞察度 6.00

重构 AWQ Marlin MoE 至模块化 WNA16 oracle

值得精读，尤其是如何将量化 MoE 接入模块化 FusedMoEKernel 框架。展示了后端选择和 kernel 构建的抽象设计。开发者在实现新量化方案时可参考此模式。

refactormoequantization

第 109 / 312 页 · 共 2492 条

上一页 1 … 107 108 109 110 111 … 312 下一页