Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 16:54 同步状态：空闲下次计划：2026-05-31 17:54

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-15

#39676 [XPU] properly handle q_descale on XPU as quant query input not supported

原始 PR · 作者 yma11 · 合并时间 2026-04-15 21:52

缺陷修复重要性 4.90 洞察度 3.00

修复XPU平台编码器注意力中量化查询输入不支持的问题，将q_descale参数设为None。

该PR值得快速浏览，以了解XPU平台量化支持的限制及修复方式；关注`supports_quant_query_input`标志的使用，这可能在其他注意力后端中也有类似模式。

xpubugfixquantization

#39901 FIX: support language_model.backbone naming in NemotronH Nano VL quantization config

原始 PR · 作者 danielafrimi · 合并时间 2026-04-15 21:49

缺陷修复重要性 5.26 洞察度 3.00

修复NemotronH Nano VL模型量化配置中路径映射缺失导致的运行时查找失败。

该PR值得快速浏览，以了解vLLM如何处理量化配置与权重命名的对齐问题。关注`WeightsMapper`在模型类中的使用模式，这对于支持外部量化工具生成的模型有参考价值。

bugfixmodelquantization

#39395 [BugFix][Graph] fix: handle empty sym_shape_indices in PiecewiseBackend.

原始 PR · 作者 chaunceyjiang · 合并时间 2026-04-15 21:28

缺陷修复重要性 6.22 洞察度 5.00

修复PiecewiseBackend中空sym_shape_indices处理导致的IndexError。

值得精读，关注如何通过条件分支和assert处理空`sym_shape_indices`的设计决策，这对于理解编译后端中动态与静态形状的切换机制有参考价值。

bugfixcompilationtest

#39857 [XPU][MXFP4] add mxfp4 quant op for XPU

原始 PR · 作者 zufangzhu · 合并时间 2026-04-15 20:28

功能重要性 6.91 洞察度 5.00

为XPU平台添加MXFP4量化算子支持，扩展低精度推理能力。

建议关注此PR作为XPU平台量化支持扩展的示例，但需注意其输入维度限制和fake实现不完整的问题。对于后续开发，应参考review建议将算子泛化为N-D支持并强化错误检查。

xpuquantizationfeature

#39710 [Metrics] Add request_id to FinishedRequestStats to enable correlation between metrics and requests

原始 PR · 作者 Csrayz · 合并时间 2026-04-15 19:24

功能重要性 5.31 洞察度 6.00

为FinishedRequestStats添加request_id字段，支持指标与请求关联。

该PR值得精读，因为它展示了如何在vLLM中扩展指标系统以支持可观测性需求。关注点包括： 1. 设计决策：选择`external_req_id`而非内部ID，体现了与现有架构一致性的考量。 2. 接口演化：讨论中关于`StatLoggerBase`稳定性的担忧，是评估类似变更长期维护成本的好案例。 3. 实现简洁性：变更集中在三个文件，逻辑清晰，适合学习如何最小化地添加功能字段。

metricsfeatureobservability

#38192 [Quantization][Autoround][CPU] Add W4A16 Support

原始 PR · 作者 Zhenzhong1 · 合并时间 2026-04-15 18:38

功能重要性 6.38 洞察度 5.00

为CPU平台添加W4A16量化支持，扩展AutoRound格式模型在vLLM中的推理能力。

该PR值得精读，特别是对于关注vLLM量化系统扩展和跨平台支持的开发者。值得关注的设计决策包括：1) 通过复用现有`apply_gptq_quant_layer`来实现CPU W4A16支持，避免了重复实现内核逻辑；2) 在`get_quant_method`中清晰的分层路由逻辑（先平台，后格式），这体现了模块化的设计思路。

quantizationcpufeature

#39862 fix online fp8 for MiniCPM models

原始 PR · 作者 yma11 · 合并时间 2026-04-15 17:09

缺陷修复重要性 7.22 洞察度 5.00

修复MiniCPM模型在线FP8量化时重采样器设备移动过早导致的元张量错误。

该PR值得精读，特别是对于处理多模态模型设备初始化和量化支持的工程师。关注的设计决策包括：延迟设备移动以避免元张量错误、明确分离设备移动和数据类型设置以支持FP8量化、以及通过标志位管理状态来确保幂等性。这些模式在类似模型初始化场景中具有借鉴价值。

bugfixmodelquantization

#36644 [kv_offload+HMA][3/N]: Remove block_size from KVEvents

原始 PR · 作者 orozery · 合并时间 2026-04-15 16:53

重构重要性 5.74 洞察度 5.00

移除KV卸载事件中的块大小字段，简化事件系统并为可变块大小分组铺路。

推荐工程师精读此PR，重点关注事件数据结构的简化设计，以及如何通过移除冗余字段提升系统扩展性；同时留意讨论中关于 `block_size` 硬编码的权衡，以便在类似场景中做出合理决策。

kv-connectorrefactorcleanup

第 166 / 253 页 · 共 2020 条

上一页 1 … 164 165 166 167 168 … 253 下一页