Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-10

#41269 [Bugfix][KV Transfer][NIXL] Notify P node on pre-admission rejection to free stranded KV blocks

原始 PR · 作者 Dao007forever · 合并时间 2026-05-10 13:52

缺陷修复重要性 7.80 洞察度 6.00

新增提前拒绝通知机制，避免P节点KV块滞留

该PR值得详细审阅，特别是对于参与KV传输模块的工程师。主要看点包括： - 如何通过构造一个`abort_immediately=True`的合成请求来重用现有的`request_finished`钩子，避免了为清理而引入额外IPC。 - 在`_with_kv_transfer_rejection_cleanup`中利用`has_kv_connector`+`do_remote_prefill`双重门控，确保只对启用connector的请求执行通知。 - 对于社区用户，建议确认自定义EngineClient是否需要实现新方法以避免运行时错误。

bugfixkv-connectorv1

#41573 [ROCm][CI] Stabilize ROCm shutdown and distributed compile CI

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-05-10 11:47

缺陷修复重要性 4.28 洞察度 3.00

稳定 ROCm 关闭流程和分布式编译 CI

此 PR 是维护性修复，值得快速合并。对于 ROCm 开发者，建议关注关闭测试中的超时断言是否仍然导致不稳定，并可考虑采纳 `gemini-code-assist[bot]` 的建议加入缓冲。无需深入精读。

rocmcibugfix

#42169 [Bugfix] Fix DeepSeek v4 topk numerical issue for unaligned max-model-len

原始 PR · 作者 wzhao18 · 合并时间 2026-05-10 11:30

缺陷修复重要性 3.40 洞察度 5.00

修复 DSv4 topk 对未对齐 max-model-len 的数值问题

值得精读：这是一个典型的内存布局假设引发数值问题的小而精修复，展示了在 CUDA kernel 中正确处理 tensor stride 的重要性。

deepseekbugfixkernel

#42180 docs: clarify Gemma 4 assistant speculative decoding

原始 PR · 作者 AbhiOnGithub · 合并时间 2026-05-10 11:08

文档重要性 2.82 洞察度 4.00

澄清 Gemma 4 辅助模型须用 MTP 路径

建议精读。该 PR 是处理“文档与实现不一致”的标准范例，值得其他特性维护者参考。

documentationspeculative-decodinggemma

#39306 Use CU_MEMCPY_SRC_ACCESS_ORDER_ANY for batch KV cache swaps

原始 PR · 作者 Etelis · 合并时间 2026-05-10 10:57

性能优化重要性 6.16 洞察度 7.00

KV cache 批量交换使用 ACCESS_ORDER_ANY 提升带宽

值得精读，特别是关于 CUDA DMA ordering 的讨论和细粒度性能优化的实践。设计决策（何时放松 ordering、何时保留）可作为类似场景的参考。

performancev1nvidia

#40951 Handle optional bool-or-string CLI args in get_kwargs

原始 PR · 作者 cvan20191 · 合并时间 2026-05-10 10:47

重构重要性 6.12 洞察度 5.00

泛化 CLI 可选布尔/字符串参数处理

值得精读。该 PR 虽小，但展示了一个很好的代码去特化（despecialization）模式：将散落的局部处理逻辑统一收拢到基础设施函数中，降低维护成本。对于 CLI 参数类型推断的设计有参考价值。

refactorcleanupfrontend

#42176 [CI/Build] Use modelscope's international site for regression test

原始 PR · 作者 Isotr0py · 合并时间 2026-05-10 10:47

测试重要性 3.03 洞察度 2.00

回归测试改用 ModelScope 国际站

该 PR 是简单的 CI 基础设施调整，无需深入精读，但可供关注 CI 稳定性的团队参考。

cicleanuptest

#33322 [Bugfix] Fix SP pass for multimodal models and PP+SP residual handling

原始 PR · 作者 wangxingran222 · 合并时间 2026-05-10 10:44

缺陷修复重要性 7.73 洞察度 7.00

修复多模态模型 SP 和 PP+SP residual 处理 bug

值得精读的设计：residual 切片使用 `tp_rank` 感知的索引，以及 `sync_and_gather_intermediate_tensors` 中通过 all-gather 保证 SP + PP 兼容性。此外，团队对三种方案的权衡分析展现了良好的设计思维。建议关注后续 #36823 和 MoE SP 相关 PR。

bugfixv1multi-modality

第 99 / 269 页 · 共 2148 条

上一页 1 … 97 98 99 100 101 … 269 下一页