Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 05:34 同步状态：空闲下次计划：2026-05-31 06:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-25

#37485 [Perf] Disable inductor runtime asserts by default for serving perfor…

原始 PR · 作者 tianrengao · 合并时间 2026-03-25 07:37

性能优化重要性 6.00 洞察度 6.00

默认禁用 Inductor 运行时断言，以降低大模型前向传播的2ms开销。

该 PR 值得精读，因为它展示了在性能和调试之间的设计权衡，以及如何通过配置和环境变量提供灵活性。建议关注 __post_init__ 中的版本检查和日志级别绑定逻辑，以及测试用例的设计。

performancedocumentationtest

#37903 nano_nemotron_vl: suppress readonly torch.from_numpy() warning in image and video resize paths

原始 PR · 作者 netanel-haber · 合并时间 2026-03-25 07:25

缺陷修复重要性 4.00 洞察度 3.00

抑制 nano_nemotron_vl 处理器中 PyTorch 只读 NumPy 数组警告，无功能影响。

该 PR 值得快速浏览，特别是 `_bicubic_from_ndarray` 函数的设计，展示了 PyTorch 警告抑制的最佳实践。但需注意 review 中的争议点，建议工程师验证 `video_to_pixel_values` 逻辑是否正确，以防潜在回归。

bugfixrefactortest

#37926 Make microbatch optimization (DBO) work with general models

原始 PR · 作者 0xjunhao · 合并时间 2026-03-25 05:40

缺陷修复重要性 5.00 洞察度 4.00

扩展微批次优化(DBO)至通用模型，去除对文本模型和内部model属性的依赖。

建议工程师精读此PR，特别是`vllm/v1/worker/gpu_ubatch_wrapper.py`的改动，以理解如何通用化微批次优化。关注`self.runnable`的设计决策，这反映了vLLM中模型封装的变化趋势。

bugfixperformancecudagraph

#37233 [UX] Add flashinfer-cubin as CUDA default dep

原始 PR · 作者 mgoin · 合并时间 2026-03-25 05:13

基础设施重要性 4.00 洞察度 4.00

将 flashinfer-cubin 设为默认 CUDA 依赖，以支持 Blackwell 部署。

建议负责 CUDA 部署或基础设施维护的工程师精读此 PR，重点关注版本管理策略。变更设计简单，但凸显了依赖分散管理的风险，值得作为案例讨论统一版本控制的最佳实践。

#38030 [MRV2] Fix for DS v3.2

原始 PR · 作者 WoosukKwon · 合并时间 2026-03-25 05:03

缺陷修复重要性 4.00 洞察度 3.00

修复MRV2模型在DeepSpeed v3.2下KV缓存规格处理问题。

该PR是一个针对性bugfix，值得处理KV缓存和DeepSpeed集成的开发者关注，特别是了解如何支持灵活规格配置的设计决策。

bugfixkv-connector

#38031 [Model Runner V2][Minor] Simplify PP logic

原始 PR · 作者 njhill · 合并时间 2026-03-25 04:57

重构重要性 5.00 洞察度 4.00

简化 Model Runner V2 中的管道并行逻辑，优化代码结构并引入潜在 bug。

建议工程师精读此 PR，重点关注 kv_connector_output 丢失的问题，检查是否已在后续提交中修复。重构设计值得学习，尤其是如何统一 PP 逻辑以减少冗余，但需警惕潜在的正确性风险。

refactorcudagraphkv-connector

#35386 Add Ubuntu 24.04 support for Docker builds

原始 PR · 作者 aasgaonkar · 合并时间 2026-03-25 04:34

功能重要性 6.00 洞察度 4.00

为 vLLM 的 Docker 构建添加 Ubuntu 24.04 支持，扩展 CI 管道兼容性。

建议工程师精读此 PR，特别是 `docker/Dockerfile` 中的兼容性修复和 CI 管道扩展，以理解构建系统的演进。关注参数化设计和跨版本测试覆盖。

cifeature

#37692 [FlexAttention] allow custom mask mod

原始 PR · 作者 liangel-02 · 合并时间 2026-03-25 04:03

功能重要性 6.00 洞察度 6.00

为FlexAttention添加自定义mask mod支持，允许用户定义块稀疏提示。

建议技术管理者精读此PR，关注BlockSparsityHint的设计和mask构建逻辑的调整，这对于理解FlexAttention的扩展性和未来稀疏attention优化有参考价值。

featureperformancetest

第 240 / 253 页 · 共 2019 条

上一页 1 … 238 239 240 241 242 … 253 下一页