Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-04-21 22:32 同步状态：空闲下次计划：2026-04-21 23:32

PR 列表

已合并 864 · 已分析 864

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-08

#39125 [Attention][V0 Deprecation] Deprecate accept output buffer

原始 PR · 作者 LucasWilkinson · 合并时间 2026-04-08 05:14

重构重要性 5.00 洞察度 5.00

移除 V0 遗留的 accept_output_buffer 标志，统一 V1 注意力操作输出缓冲区处理。

建议精读此 PR，因为它展示了从 V0 到 V1 的弃用模式和输出缓冲区标准化设计。重点关注 `attention.py` 中的逻辑简化，以及 review 讨论中关于代码集中化的技术洞察。

v1attentionrefactor

#39160 [Bugfix] Fix extract_hidden_states crash with quantized KV cache dtype

原始 PR · 作者 yubofredwang · 合并时间 2026-04-08 02:18

缺陷修复重要性 5.00 洞察度 4.00

修复量化KV缓存类型下提取隐藏状态模型崩溃问题。

该PR值得快速浏览，关注点：1. 使用dataclasses.replace处理不可变配置的设计模式。2. is_quantized_kv_cache工具函数的应用场景。3. 理解隐藏状态缓存与KV缓存数据类型的分离设计。

bugfixv1model

#38860 [Parser] Pass request.tools to tool parser

原始 PR · 作者 sfeng33 · 合并时间 2026-04-08 01:36

缺陷修复重要性 4.00 洞察度 3.00

修复非流式Responses API中工具调用解析器缺少tools参数的问题。

该PR值得快速浏览以理解工具调用解析器参数传递的修复机制。重点关注_WrappedParser构造函数的设计决策：作者选择明确的参数列表而非可变参数，体现了对API清晰性的偏好。对于负责Responses API或工具调用功能的工程师，需要确保后续相关代码遵循相同的参数传递模式。

frontendtool-callingresponses-api

#36993 [CI][Bugfix][AMD][ Ensure weights created when using emulating OCP MXFP4

原始 PR · 作者 rasmith · 合并时间 2026-04-08 00:37

缺陷修复重要性 4.00 洞察度 5.00

修复AMD仿真OCP MXFP4量化时权重创建错误，解决测试失败。

建议量化或ROCm相关工程师阅读此PR，关注`process_weights_after_loading`方法的逻辑调整，了解仿真模式下权重处理的正确实践。

bugfixrocmquantization

#39088 [XPU] Quick fix for TritonMLA to remove cuda hardcode

原始 PR · 作者 xuechendi · 合并时间 2026-04-08 00:17

缺陷修复重要性 5.00 洞察度 4.00

修复 TritonMLA 后端中 CUDA 硬编码，支持 XPU 平台运行 DeepSeek-V2-Lite 模型。

该 PR 变更简洁，但涉及核心注意力后端和 MOE 层的平台兼容性，建议关注 `current_platform` 抽象的使用模式，可作为类似平台移植任务的参考。对于 XPU 平台开发者，值得精读以理解后端判断逻辑的演进。

bugfixv1xpu

2026-04-07

#37502 [Bugfix] Fix marlin nvfp4 rescaling

原始 PR · 作者 jinzhen-lin · 合并时间 2026-04-07 23:57

缺陷修复重要性 5.00 洞察度 4.00

修复 Marlin NVFP4 量化重缩放逻辑，避免因极小尺度值导致的断言失败。

该 PR 值得精读，尤其是量化模块的开发者。关注尺度因子计算逻辑从基于最小值到基于最大值的转变，以及钳位处理的设计决策，这反映了对量化数值稳定性的权衡。

bugfixv1quantization

#37636 [KVConnector] Support 3FS KVConnector

原始 PR · 作者 ibifrost · 合并时间 2026-04-07 23:46

功能重要性 7.00 洞察度 6.00

引入 3FS KVConnector 支持，实现 KV 缓存跨节点高效卸载和共享。

该 PR 值得精读，特别是其异步操作管理和资源清理设计。工程师应关注 review 中修复的逻辑错误，以及元数据服务器中的分配策略，这些是分布式系统中的关键决策点。

kv-connectorv1feature

#38517 [Bugfix][Quantization] Fix PerTensorScale loading with tuple shard_id in MergedColumnParallelLinear

原始 PR · 作者 kkyyxhll · 合并时间 2026-04-07 23:16

缺陷修复重要性 6.00 洞察度 5.00

修复MergedColumnParallelLinear中PerTensorScale参数在tuple shard_id时的加载错误，解决Qwen3.5模型FP8静态逐张量量化输出乱码问题。

该PR值得精读，因为它揭示了一个在融合线性层中处理量化scale参数的微妙bug。关注点：1. 理解MergedColumnParallelLinear如何支持tuple shard_id以处理融合投影（如Qwen3.5的in_proj_qkvz）。2. 学习PerTensorScaleParameter在量化权重加载中的角色。3. 注意bug的根因：硬编码shard_id=0忽略了tuple的语义，导致scale未正确传播。

bugfixv1quantization

第 49 / 108 页 · 共 864 条

上一页 1 … 47 48 49 50 51 … 108 下一页

支持 Prhub ♥

vllm-project/vllm

PR 列表

#39125 [Attention][V0 Deprecation] Deprecate accept output buffer

#39160 [Bugfix] Fix extract_hidden_states crash with quantized KV cache dtype

#38860 [Parser] Pass request.tools to tool parser

#36993 [CI][Bugfix][AMD][ Ensure weights created when using emulating OCP MXFP4

#39088 [XPU] Quick fix for TritonMLA to remove cuda hardcode

#37502 [Bugfix] Fix marlin nvfp4 rescaling

#37636 [KVConnector] Support 3FS KVConnector

#38517 [Bugfix][Quantization] Fix PerTensorScale loading with tuple shard_id in MergedColumnParallelLinear

参与讨论