Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 09:45 同步状态：空闲下次计划：2026-06-04 10:45

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-25

#38031 [Model Runner V2][Minor] Simplify PP logic

原始 PR · 作者 njhill · 合并时间 2026-03-25 04:57

重构重要性 5.00 洞察度 4.00

简化 Model Runner V2 中的管道并行逻辑，优化代码结构并引入潜在 bug。

建议工程师精读此 PR，重点关注 kv_connector_output 丢失的问题，检查是否已在后续提交中修复。重构设计值得学习，尤其是如何统一 PP 逻辑以减少冗余，但需警惕潜在的正确性风险。

refactorcudagraphkv-connector

#35386 Add Ubuntu 24.04 support for Docker builds

原始 PR · 作者 aasgaonkar · 合并时间 2026-03-25 04:34

功能重要性 6.00 洞察度 4.00

为 vLLM 的 Docker 构建添加 Ubuntu 24.04 支持，扩展 CI 管道兼容性。

建议工程师精读此 PR，特别是 `docker/Dockerfile` 中的兼容性修复和 CI 管道扩展，以理解构建系统的演进。关注参数化设计和跨版本测试覆盖。

cifeature

#37692 [FlexAttention] allow custom mask mod

原始 PR · 作者 liangel-02 · 合并时间 2026-03-25 04:03

功能重要性 6.00 洞察度 6.00

为FlexAttention添加自定义mask mod支持，允许用户定义块稀疏提示。

建议技术管理者精读此PR，关注BlockSparsityHint的设计和mask构建逻辑的调整，这对于理解FlexAttention的扩展性和未来稀疏attention优化有参考价值。

featureperformancetest

#37920 [Bugfix] Pass hf_token through config loading paths for gated model support

原始 PR · 作者 javierdejesusda · 合并时间 2026-03-25 03:22

缺陷修复重要性 5.00 洞察度 3.00

修复 hf_token 在配置加载路径中未传递的 bug，支持 gated models 的显式 token 认证。

该 PR 值得快速浏览，关注 `hf_token` 参数如何在三个关键路径中传递，学习系统性地修复参数遗漏问题。

bugfixfrontendspeculative-decoding

#38015 [BugFix] fix VLLM_USE_STANDALONE_COMPILE=0

原始 PR · 作者 zou3519 · 合并时间 2026-03-25 03:08

缺陷修复重要性 4.00 洞察度 5.00

修复 VLLM_USE_STANDALONE_COMPILE=0 的编译 bug，并添加测试以确保正确性。

推荐对编译模块或 PyTorch 集成感兴趣的工程师精读此 PR，以了解 FakeTensorMode 和 tracing context 的陷阱，并关注私有 API 使用和弃用路径的决策权衡，有助于在类似场景下做出技术选择。

bugfixtesttorch.compile

#38012 [BugFix] Fix order of compile logging

原始 PR · 作者 zou3519 · 合并时间 2026-03-25 02:58

缺陷修复重要性 3.00 洞察度 2.00

修复 AOT 编译加载日志顺序，确保计数和日志只在缓存命中时更新。

这是一个小范围的 bugfix，代码变更简单明了，建议快速 review 并合并。对于工程师，可关注日志顺序调整的设计，但无需深度精读，除非涉及编译系统调试。

bugfixtorch.compilerefactor

#38019 [Model] Add Granite 4.0 1B speech to supported models

原始 PR · 作者 NickCao · 合并时间 2026-03-25 02:23

功能重要性 6.00 洞察度 4.00

添加 Granite 4.0 1B speech 模型到 vLLM 支持列表，并提供测试覆盖。

建议工程师阅读此 PR 以了解如何在 vLLM 中添加新模型，特别是测试适配和文档更新模式。但变更相对简单，无需深度研究；可关注语言列表的潜在风险，考虑未来动态验证改进。

modeltestdocumentation

#37706 [Bugfix] Fix structured output crash on CPU due to pin_memory=True

原始 PR · 作者 wjhrdy · 合并时间 2026-03-25 01:44

缺陷修复重要性 6.00 洞察度 6.00

修复CPU部署中结构化输出因pin_memory=True导致的崩溃。

对于涉及CPU部署或结构化输出功能的工程师，推荐阅读此PR以理解设备检测和内存优化的最佳实践；对技术管理者，可关注代码审查过程中的设计权衡如何提升代码质量。

bugfixcpustructured-output

第 257 / 269 页 · 共 2150 条

上一页 1 … 255 256 257 258 259 … 269 下一页