Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 00:21 同步状态：空闲下次计划：2026-05-31 01:21

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-29

#41090 [Bugfix] Fix Deepseek V4 import error due to AOT compile cache loading

原始 PR · 作者 wzhao18 · 合并时间 2026-04-29 12:08

缺陷修复重要性 6.08 洞察度 4.00

修复 DeepSeek V4 二次启动时因 AOT 缓存导致的 import 错误

建议合并。修复逻辑清晰、风险极低，且经过 `zou3519`（PyTorch 核心维护者）和 `ProExpertProg` 批准。适合需要 DeepSeek V4 生产部署的团队优先集成。

bugfixdeepseekcompilation

#40422 [Feature] add cohere reasoning and tool parsers

原始 PR · 作者 walterbm · 合并时间 2026-04-29 12:07

功能重要性 8.95 洞察度 5.00

新增 Cohere Command A 推理与工具解析器

本 PR 值得关注设计思路：如何将外部复杂的推理/工具解析器以可选方式集成到 vLLM 插件体系中。尤其是 `try/except` 动态导入 + 错误提示的实践，以及 `PyFilter` 有状态对象的管理策略。建议阅读代码中的 `collect_tool_schema` 使用 xgrammar 从 JSON Schema 生成 EBNF 语法的手段。但注意缺少测试覆盖，使用解析器时需谨慎。

featuremodeltool-calling

#40845 [BE][Torch 2.12] Remove workaround code for fixed cublas issue

原始 PR · 作者 Lucaskabela · 合并时间 2026-04-29 12:07

缺陷修复重要性 6.54 洞察度 5.00

移除 B200 批次不变性 workaround，统一 SM100 与 SM90 路径

值得精读。PR 展示了如何在上游修复后干净地剥离临时 workaround，同时注意了交叉平台安全（`is_cuda()` 保护）。是学习 vLLM 如何处理 GPU 架构差异和 PyTorch 版本兼容性的好例子。

bugfixcleanupnvidia

#40309 [QeRL] Add warnings for extra memory buffering

原始 PR · 作者 kylesayrs · 合并时间 2026-04-29 12:06

功能重要性 7.36 洞察度 5.00

为 layerwise 重载添加乱序加载导致额外内存 buffer 的警告

该 PR 设计简洁清晰，使用 `WeakSet` 跟踪活跃层并配合 `warning_once` 避免日志泛滥，是一个值得参考的监控模式。对于涉及 layerwise 重载或类似渐进加载系统的开发者，建议精读。

featureperformancequantization

#40317 [Docs] [QeRL] Layerwise Reloading Documentation

原始 PR · 作者 kylesayrs · 合并时间 2026-04-29 12:06

文档重要性 7.84 洞察度 5.00

为 QeRL 层重载提供文档和内存警告

该 PR 主要为文档性质，但其附带代码变更对 QeRL 功能有实际增强。建议 QeRL 相关开发者精读文档中的 API 说明和限制部分；团队可关注后续 #40309 系列 PR 的推进，以获取完整的层重载支持。设计上值得注意的有：使用 WeakSet 进行轻量级层跟踪、在线量化方法与 weight_loader 的协作模式。

documentationquantizationrefactor

#40842 uncomment flex backend for batch invariant mode

原始 PR · 作者 liangel-02 · 合并时间 2026-04-29 12:05

缺陷修复重要性 5.90 洞察度 5.00

启用 FlexAttention 的 batch invariance 支持

该 PR 代码简洁且聚焦，适合有注意力后端开发背景的工程师精读。关键设计决策是使用张量切片替代 `as_strided` 以匹配 CUDA Graph 的内存布局，这是一个值得记录的模式。建议合并。

bugfixattentionperformance

#41086 [UX] Allow enable/disable model weights loading tracking by config

原始 PR · 作者 Isotr0py · 合并时间 2026-04-29 12:04

功能重要性 7.15 洞察度 6.00

模型权重加载跟踪可配置化

值得精读，尤其是 `track_weights_loading` 中的量化参数忽略逻辑。建议合并前解决 reviewer 指出的宽泛检查问题，以充分发挥该特性的价值。

featurerefactorquantization

#41147 [CI] De-flake test_chat_completion_n_parameter_non_streaming

原始 PR · 作者 haosdent · 合并时间 2026-04-29 11:24

测试重要性 3.77 洞察度 3.00

修复 chat 测试的 n 参数 flaky 问题

值得合并以提升 CI 稳定性。

bugfixtestci

第 121 / 253 页 · 共 2018 条

上一页 1 … 119 120 121 122 123 … 253 下一页