Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 08:38 同步状态：空闲下次计划：2026-05-31 09:38

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-22

#35745 [Performance] Add is_reasoning_end_streaming() override to GptOssReasoningParser

原始 PR · 作者 fergusfinn · 合并时间 2026-04-22 02:31

性能优化重要性 6.90 洞察度 6.00

为 GPT-OSS 推理解析器添加流式结束检测覆盖，优化长上下文性能。

建议工程师精读此 PR，特别是 `is_reasoning_end_streaming()` 的实现，以理解如何通过窗口化扫描将 O(n) 操作优化为常数时间。关注类型处理（`Iterable` 转换）和推测解码场景的考虑，这些设计决策对类似性能优化有借鉴价值。

performancegpt-oss

#39546 [Bugfix] Fix spec decode test failures on Blackwell (SM100+)

原始 PR · 作者 puririshi98 · 合并时间 2026-04-22 02:21

缺陷修复重要性 5.84 洞察度 6.00

修复Blackwell GPU推测解码测试失败，优化注意力元数据CPU同步。

值得精读，特别是关注`flashinfer.py`中`build`函数的守卫逻辑和GPU计算优化，展示了在性能与正确性间的权衡设计，以及异步路径的调试思路。

bugfixnvidiaspeculative-decoding

#39833 [MRv2]fix: model accuracy regression caused by reusing the stale last_sampled_tokens and draft_tokens

原始 PR · 作者 liuzijing2014 · 合并时间 2026-04-22 00:30

缺陷修复重要性 6.04 洞察度 7.00

修复 V2 模型运行器复用请求槽时的模型精度回归

建议精读本 PR。这是一个典型的状态泄漏 bug 修复，展示了在多请求并发模型中正确管理共享状态的技巧。尤其值得关注 njhill 建议的无需同步的切片赋值手法，以及通过条件判断避免不必要写入的思路。

bugfixv1scheduler

#40276 Revert "[Misc] Move `pyav` and `soundfile` to common requirements"

原始 PR · 作者 Isotr0py · 合并时间 2026-04-22 00:08

基础设施重要性 3.84 洞察度 3.00

将音频依赖 pyav 和 soundfile 从通用要求移回音频可选包，避免 LGPL 许可问题。

该 PR 变更直接，无需深入精读。值得关注的点是团队对许可合规的重视，以及依赖分类的决策（通用 vs 可选）。对于涉及音频功能的开发者，需注意安装指令的变化。

ci/buildcleanup

2026-04-21

#40467 Add new tp plan styles to the Transformers modelling backend

原始 PR · 作者 hmellor · 合并时间 2026-04-21 23:51

功能重要性 5.94 洞察度 4.00

为Transformers建模后端添加新的张量并行规划样式，支持v5命名变更。

该PR变更简洁明确，主要维护者已批准，建议快速合并。对于需要了解vLLM与Transformers集成机制的开发者，值得关注`replace_linear_class`函数中样式名称到并行线性类的映射设计，这是跨框架兼容性的关键数据契约。

featuremodel

#39937 [Model Runner V2] Multiple prompt logprobs support

原始 PR · 作者 yewentao256 · 合并时间 2026-04-21 23:49

功能重要性 6.58 洞察度 5.00

V2 Model Runner 支持多个 prompt logprob

值得精读以实现差异化批处理参数的传递模式。但需留意 gemini 指出的切片缺失问题，建议在合并后续 PR 或生产环境遇到断言错误时补充每个请求的精确截断逻辑。

featurev1refactor

#40032 Revert #38730 and #38791

原始 PR · 作者 vadiklyutiy · 合并时间 2026-04-21 23:44

缺陷修复重要性 5.66 洞察度 4.00

撤销对TRTLLM注意力后端SM100限制的临时修复，恢复SM10x家族支持。

该PR值得快速浏览，重点关注`vllm/utils/flashinfer.py`中设备能力检查的逻辑恢复，以及测试用例的同步更新。设计决策体现了“上游修复后及时清理临时补丁”的良好实践，但需注意对上游依赖的信任风险。

bugfixnvidiaattention

#40465 [UX] Bump version in CG memory profiling log message

原始 PR · 作者 MatthewBonanni · 合并时间 2026-04-21 23:26

其他重要性 4.12 洞察度 1.00

更新CUDA图内存分析日志中的版本号，从v0.19改为v0.21。

此PR变更简单，无需精读。值得关注的点是版本号更新的及时性，反映了项目发布计划的调整。对于了解CUDA图内存分析功能演进方向的开发者，可留意相关PR #38284。

cleanup

第 144 / 253 页 · 共 2019 条

上一页 1 … 142 143 144 145 146 … 253 下一页