Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-14 05:00 同步状态：空闲下次计划：2026-06-14 06:00

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-30

#43998 [Bugfix] Fix Ray placement group allocation with grouped nodes

原始 PR · 作者 czhu-cohere · 合并时间 2026-05-30 02:51

缺陷修复重要性 5.83 洞察度 4.00

修复 Ray 多节点 placement group 分配崩溃

值得合并。该修复针对的是多节点 Ray 集群上的数据并行场景，代码简洁，修复明确，无副作用。

bugfixv1

#43988 [Bugfix] Use storage_block_size in KV cache reshape for compressed specs (DeepSeek V4)

原始 PR · 作者 zixi-qi · 合并时间 2026-05-30 02:14

缺陷修复重要性 5.86 洞察度 6.00

修复 DeepSeek V4 KV cache reshape 越界崩溃

值得所有使用 DeepSeek V4 或类似压缩 KV cache 模型的用户及时合并。代码改动很小，但根本原因分析深入，体现了对 KV cache 布局的理解，适合精读以学习类似问题的排查方法。

bugfixdeepseekv1

#43219 [EPLB] Make async EPLB default

原始 PR · 作者 ilmarkov · 合并时间 2026-05-30 02:07

功能重要性 5.67 洞察度 5.00

将异步 EPLB 设为默认，降低尾部延迟并消除调度停顿

值得精读。此 PR 代表了 EPLB 功能从试验性到默认启用的关键一步，体现了 vLLM 团队对 MoE 推理延迟优化的持续投入。设计上通过非阻塞通信以最小代价换取稳定的低延迟，是性能与实现复杂度之间的良好权衡。

performancefeaturemoe

#42553 [MoE Refactor] WNA16 MoE backend selection into oracle module

原始 PR · 作者 bnellnm · 合并时间 2026-05-30 01:11

重构重要性 9.18 洞察度 6.00

WNA16 MoE 后端选择重构至 oracle 模块，新增 FlashInfer Monolithic 支持

值得精读，特别是 oracle 模式的设计和 kernel 实例存储位置的决策。关注 review 中关于 state sharing 的修改，以及后续的兼容性修复。

refactorperformancequantization

2026-05-29

#43616 [Bugfix] Disable allreduce_rms_fusion when pipeline_parallel_size > 1

原始 PR · 作者 zixi-qi · 合并时间 2026-05-29 22:57

缺陷修复重要性 5.94 洞察度 6.00

PP>1 时禁用 allreduce_rms_fusion 防死锁

本 PR 值得精读，尤其是 PR body 中对 FlashInfer 融合内核死锁根因的深度分析。变更虽小，但揭示了分布式系统下 CUDA 内核 launch 一致性的重要约束。相关回归测试可参考 #35960。

bugfixv1performance

#43818 [Misc] added unit tests for the core pooling methods

原始 PR · 作者 taneem-ibrahim · 合并时间 2026-05-29 22:40

测试重要性 7.86 洞察度 4.00

为核心池化方法添加单元测试

值得精读，尤其是 `_make_pooling_cursor` 和 `_make_metadata` 辅助函数的设计——它们封装了复杂的 `PoolingMetadata` 构造逻辑，使测试代码简洁且易于扩展。同时，测试中对 partial prefill 和 chunked prefill 的边界处理也值得参考。

testv1model

#43922 docs: clarify ITL acronym in optimization docs

原始 PR · 作者 chunyang-wen · 合并时间 2026-05-29 22:40

文档重要性 1.54 洞察度 1.00

优化文档中首次出现 ITL 时给出全称

该 PR 属于纯文档改进，无需精读。但值得关注的是其遵循了“缩写首次出现时给出全称”的良好实践，可作为同类文档贡献的参考。

documentationcleanup

#43857 Add vLLM library info to Hugging Face Hub requests

原始 PR · 作者 Wauplin · 合并时间 2026-05-29 22:04

功能重要性 7.31 洞察度 4.00

集中 HF Hub 调用并附带 vLLM 库标识

值得精读，尤其是 `repo_utils.py` 中的设计模式（单例 + library tagging）。对于计划集成外部服务的项目有借鉴意义。建议合入后通知团队遵循新的调用约定。

refactorcleanupinfra

第 64 / 313 页 · 共 2499 条

上一页 1 … 62 63 64 65 66 … 313 下一页