Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 19:59 同步状态：空闲下次计划：2026-05-31 20:59

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-14

#39604 [Quantization] [Refactor] Create special "GptOssMxfp4MoeMethod"

原始 PR · 作者 zyongye · 合并时间 2026-04-14 00:53

重构重要性 8.40 洞察度 6.00

为 GPT-OSS 检查点创建专用 MXFP4 量化配置类，区分通用 MXFP4 支持。

该 PR 值得精读，特别是量化配置的设计决策，如基类与子类的划分、配置标准化路径的实现。建议关注 `GptOssMxfp4Config.override_quantization_method` 如何结合模型类型进行安全映射，以及 `_is_mxfp4` 辅助函数如何统一处理 MXFP4 变体，这些模式可用于类似场景。

quantizationgpt-ossrefactor

2026-04-13

#39542 [Bugfix] Fix tensor shape mismatch in sparse attention with speculative decoding

原始 PR · 作者 santiramos27 · 合并时间 2026-04-13 23:57

缺陷修复重要性 5.00 洞察度 4.00

修复稀疏注意力索引器中张量形状不匹配导致的推测解码运行时错误。

建议关注此PR，因为它揭示了稀疏注意力与推测解码集成时的边缘情况处理。对于从事推测解码或稀疏注意力开发的工程师，值得精读以理解形状对齐的陷阱。设计决策简单但关键，展示了如何修复因重构遗漏导致的形状不一致。

bugfixattentionspeculative-decoding

#39709 [CI][Metrics] Fix local_cache_hit assertion after prompt tokens metrics updates

原始 PR · 作者 ZhanqiuHu · 合并时间 2026-04-13 23:16

测试重要性 3.00 洞察度 4.00

修复多连接器边缘测试中本地缓存命中指标断言，适配PR #38709的指标语义变更。

该PR变更简单，可快速浏览以理解指标语义变更对测试的影响。值得关注的是关联Issue评论中提到的指标计算根本问题，建议结合PR #38709和可能的调度器修复PR（如#37460）一起查看，以全面理解指标语义演进。

kv-connectortest

#39225 [Bug] Fix rocm sparse attn indexer issue

原始 PR · 作者 yewentao256 · 合并时间 2026-04-13 22:53

缺陷修复重要性 4.00 洞察度 3.00

修复ROCm稀疏注意力索引器在推测解码下因张量填充导致的越界读取问题。

该PR代码简洁，但涉及底层内核安全，建议ROCm用户关注。值得精读review讨论中关于张量填充处理的权衡，理解为何未采纳num_actual_tokens方案。

rocmbugfixattention

#39418 [Bugfix][CT] Fix KV cache scale handling

原始 PR · 作者 yiliu30 · 合并时间 2026-04-13 22:50

缺陷修复重要性 6.00 洞察度 4.00

修复压缩张量量化中KV缓存scale处理缺失导致的输出乱码问题。

该PR值得快速浏览以了解quantization中scale处理机制，特别是`_float`变量的作用。对于从事量化开发的工程师，可以关注`_to_scalar`函数的设计，它处理了不同scale策略（如单scale vs. 多scale）。

bugfixquantization

#36679 [Bugfix] stream failure when model name not in audio endpoints

原始 PR · 作者 ekagra-ranjan · 合并时间 2026-04-13 22:20

缺陷修复重要性 3.00 洞察度 2.00

修复音频转录/翻译端点流式推理时缺失模型名称导致的验证错误。

该PR变更简单直接，值得快速浏览以了解前端验证的修复模式。关注点：如何为缺失参数设置默认值以保持API一致性。

frontendbugfix

#38849 [Bug] Fix TypeError when hf_config.architectures is None during model loading

原始 PR · 作者 TihoElek · 合并时间 2026-04-13 19:13

缺陷修复重要性 6.00 洞察度 6.00

修复模型加载时 hf_config.architectures 为 None 引发的 TypeError。

建议工程师精读此 PR，特别是 vllm/config/vllm.py 中的 with_hf_config 方法新逻辑和 vllm/model_executor/model_loader/utils.py 的修复，以理解配置解析的改进和设计权衡，如通用化修复 vs 特定硬编码。

bugfixmodel

#38707 [MXFP8] [XPU] add a new compressed tensor schema and add a xpu mxfp8 gemm kernel

原始 PR · 作者 zufangzhu · 合并时间 2026-04-13 16:59

功能重要性 6.00 洞察度 5.00

为 XPU 平台添加 MXFP8 量化 GEMM 内核和新压缩张量方案。

建议技术管理者关注此 PR 以了解 XPU 量化扩展策略，工程师可精读 `xpu.py` 中的内核实现，学习如何适配新平台的量化计算和设计回退机制。

xpuquantizationkernel

第 174 / 253 页 · 共 2020 条

上一页 1 … 172 173 174 175 176 … 253 下一页