Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-16

#42594 fix: add API key authorization to /v2 endpoints

原始 PR · 作者 dusthunter · 合并时间 2026-05-16 09:29

缺陷修复重要性 6.62 洞察度 5.00

修复 /v2 端点 API key 认证绕过漏洞

值得立即合并。作为一个安全修复，变更简洁且测试完备。设计上采用元组常量管理受保护前缀的做法值得推广。建议后续跟进路径规范化以消除评论中提出的边缘情况。

bugfixfrontendsecurity

#41632 [Misc] Add common random prefix option to structured-output serving benchmark

原始 PR · 作者 viktorpusTT · 合并时间 2026-05-16 08:44

功能重要性 6.50 洞察度 5.00

结构化基准测试新增随机前缀选项

此 PR 值得仔细阅读，尤其关注 review 中未解决的 prompt_len 一致性问题。建议在后续 PR 中修复 decode 参数和长度计算，确保基准测试数据准确。

performancestructured-outputfeature

#42782 [Bugfix] Respect explicit --kv-cache-dtype over checkpoint kv_cache_scheme

原始 PR · 作者 mgoin · 合并时间 2026-05-16 08:15

缺陷修复重要性 6.05 洞察度 4.00

修复 kv-cache-dtype 用户显式设置被覆盖的 bug

值得合入，改动简洁且解决了实际用户问题。建议阅读 reviewer MatthewBonanni 关于 "auto" 语义演变的评论，关注后续 #38124 对 dtype 语义的进一步区分。

bugfixquantizationv1

#39538 [Kernel][UX] Add `--linear-backend` arg for linear kernel selection

原始 PR · 作者 mgoin · 合并时间 2026-05-16 08:07

功能重要性 8.37 洞察度 5.00

添加 --linear-backend 参数用于线性 kernel 后端选择

建议阅读该 PR，尤其是 kernel 选择架构的统一化设计（类似 `--moe-backend` 的模式）。对于需要多后端切换的用户，这是必要的配置入口。团队应关注后续动态扩展的支持计划。

kernelquantizationfeature

#42706 [Bugfix] Unwrap VLM wrappers for EPLB on Model Runner V2

原始 PR · 作者 JasonKeyiL · 合并时间 2026-05-16 07:20

缺陷修复重要性 6.34 洞察度 5.00

修复 V2 模型运行器中 VLM 包装器的 EPLB 展开

建议精读此 PR，尤其是 `_unwrap_moe` 的设计模式——它展示了如何在不侵入 VLM 包装器的情况下处理协议缺失问题。考虑在后续 PR 中处理 `maybe_register_speculator` 的类似展开。

bugfixv1frontend

#42481 [Bugfix] Fix layerwise reload alias-buffer corruption

原始 PR · 作者 rasdani · 合并时间 2026-05-16 06:20

缺陷修复重要性 7.97 洞察度 6.00

修复逐层重载中别名缓冲区损坏导致 NaN 的问题

值得精读。该 PR 展示了如何在 PyTorch 中安全地检测和跳过共享存储的缓冲区，设计模式（预计算指针集合、异常安全处理）可复用于其他需要操作 tensor 别名的场景。review 过程中对性能优化和逻辑简化的讨论也体现了良好的工程实践。

bugfixmodelperformance

#42606 [ROCm][Bugfix] Fix fused_mla_dual_rms_norm for AITER API rename _fused_qk_rmsnorm

原始 PR · 作者 rbrugaro-amd · 合并时间 2026-05-16 04:50

缺陷修复重要性 6.63 洞察度 4.00

适配 AITER API 重命名，修复 MLA RMSNorm 融合崩溃

推荐阅读，因为展示了如何优雅处理上游接口非兼容变更，以及 import-once + hasattr 的经典用法。

bugfixrocmattention

#41668 [Build] Switch CUDA 12.9 wheel builds to PyTorch manylinux_2_28 base

原始 PR · 作者 mgoin · 合并时间 2026-05-16 04:46

基础设施重要性 2.73 洞察度 2.00

CUDA 12.9 车轮构建切换到 manylinux_2_28 基础镜像

该 PR 属于基础设施维护，逻辑清晰、改动极小，无需精读。但可作为 CI/CD 镜像策略变更的参考。

ci/buildinfranvidia

第 72 / 269 页 · 共 2148 条

上一页 1 … 70 71 72 73 74 … 269 下一页