Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-16
缺陷修复 重要性 6.62 洞察度 5.00

修复 /v2 端点 API key 认证绕过漏洞

值得立即合并。作为一个安全修复,变更简洁且测试完备。设计上采用元组常量管理受保护前缀的做法值得推广。建议后续跟进路径规范化以消除评论中提出的边缘情况。

缺陷修复 重要性 6.05 洞察度 4.00

修复 kv-cache-dtype 用户显式设置被覆盖的 bug

值得合入,改动简洁且解决了实际用户问题。建议阅读 reviewer MatthewBonanni 关于 "auto" 语义演变的评论,关注后续 #38124 对 dtype 语义的进一步区分。

功能 重要性 8.37 洞察度 5.00

添加 --linear-backend 参数用于线性 kernel 后端选择

建议阅读该 PR,尤其是 kernel 选择架构的统一化设计(类似 `--moe-backend` 的模式)。对于需要多后端切换的用户,这是必要的配置入口。团队应关注后续动态扩展的支持计划。

缺陷修复 重要性 6.34 洞察度 5.00

修复 V2 模型运行器中 VLM 包装器的 EPLB 展开

建议精读此 PR,尤其是 `_unwrap_moe` 的设计模式——它展示了如何在不侵入 VLM 包装器的情况下处理协议缺失问题。考虑在后续 PR 中处理 `maybe_register_speculator` 的类似展开。

缺陷修复 重要性 7.97 洞察度 6.00

修复逐层重载中别名缓冲区损坏导致 NaN 的问题

值得精读。该 PR 展示了如何在 PyTorch 中安全地检测和跳过共享存储的缓冲区,设计模式(预计算指针集合、异常安全处理)可复用于其他需要操作 tensor 别名的场景。review 过程中对性能优化和逻辑简化的讨论也体现了良好的工程实践。

参与讨论