Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 09:45 同步状态：空闲下次计划：2026-06-04 10:45

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-14

#40789 [Bugfix] V1: support tuple model outputs in ubatch wrapper (dbo + spec decode)

原始 PR · 作者 he-yufeng · 合并时间 2026-05-14 06:47

缺陷修复重要性 6.59 洞察度 5.00

修复 V1 ubatch wrapper 不支持元组输出

该 PR 是典型的高信噪比 bugfix，逻辑清晰，改动集中，值得精读。推荐的关注点： 1. `_cat_ubatch_outputs` 的设计模式：如何用极少的代码优雅扩展原有单 Tensor 思维到元组输出，可推广到其他需要合并异构返回值的场景。 2. CUDA Graph 捕获路径与非捕获路径共享同一合并逻辑的实践，体现了一处定义、多处复用的好习惯。 3. 作者对 CI 失败的分析方法：逐项确认失败是否与自身变更相关，值得借鉴。

bugfixv1speculative-decoding

#42320 [Bugfix] Fix DeepSeek V4 MTP HC state handling

原始 PR · 作者 mmangkad · 合并时间 2026-05-14 06:44

缺陷修复重要性 6.12 洞察度 4.00

修复 DeepSeek V4 MTP HC 状态处理不匹配

建议精读，因为该 PR 展示了如何快速修复跨模块的接口兼容性问题，并体现了 review 推动代码优化的良性流程。

bugfixdeepseekspeculative-decoding

#42535 [Core][MM] Do not use urllib3 to parse data URLs

原始 PR · 作者 lgeiger · 合并时间 2026-05-14 06:21

性能优化重要性 5.94 洞察度 6.00

替换 urllib3 解析为大 URL 高性能判断

建议精读，虽然变更本身很小，但展示了如何通过一个简单的模式检查避免昂贵库函数调用，性能提升达 5 个数量级。适用于了解 vllm 多模态数据加载关键路径。

multi-modalityperformancerefactor

#41252 expose flex block size for batch invariant mode

原始 PR · 作者 liangel-02 · 合并时间 2026-05-14 05:11

功能重要性 7.60 洞察度 6.00

暴露 Flex Attention 块大小配置，支持用户自定义

值得精读，特别是设计演化过程（从环境变量到统一配置、解耦 batch invariance）和参数校验逻辑。展示了如何在保持向后兼容的前提下引入配置能力，适合作为新增核心配置项的参考。

v1attentionfeature

#41566 [Quantization] Rework quantization_config to use QuantKey and allow for activation override

原始 PR · 作者 mgoin · 合并时间 2026-05-14 04:58

重构重要性 9.36 洞察度 7.00

重构在线量化配置，引入 QuantSpec 支持按层类型指定量化方案

该 PR 是 vLLM 量化配置体系的核心架构变更，值得团队成员细致 review，特别是涉及 QuantSpec 设计模式、activate 覆盖与现有量化协议的交互。建议在合并前确保现有集成测试（特别是 Blackwell MoE 和 gpt-oss）通过。

quantizationrefactornvidia

#42542 [PD] Fix broken NIXL EP installation

原始 PR · 作者 ovidiusm · 合并时间 2026-05-14 04:55

缺陷修复重要性 3.91 洞察度 4.00

修复 NIXL EP 安装时 CUDA 版本冲突

值得精读，但更应关注上游 nixl 的长期修复。当前 PR 是镜像构建的临时修复，可作为 CI/CD 调试参考。

bugfixci/buildinfra

#42116 [Frontend] add support for thinking_token_budget in completions

原始 PR · 作者 walterbm · 合并时间 2026-05-14 04:01

功能重要性 4.99 洞察度 3.00

为 Completions API 添加 thinking_token_budget 参数

该 PR 变更简单清晰，值得快速合入。建议后续为 `thinking_token_budget` 补充范围校验和测试。有权限的维护者已批准合入，无需过多关注。

frontendfeature

#42563 [CI] Fix pre-commit issue

原始 PR · 作者 yewentao256 · 合并时间 2026-05-14 03:37

缺陷修复重要性 6.35 洞察度 3.00

修复 Quark MoE 类型注解和参数名，通过 mypy 检查

建议合并前确认 `apply` 中参数顺序是否正确，可参考 `modular_kernel.py` 中的定义。若确认错误，应在此 PR 或后续修复中更正。

bugfixquantizationmoe

第 82 / 269 页 · 共 2150 条

上一页 1 … 80 81 82 83 84 … 269 下一页