Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 02:27 同步状态：空闲下次计划：2026-05-31 03:27

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-27

#38373 [torch.compile]: Disable Sequence Parallelism (SP) for piecewise compilation

原始 PR · 作者 SouthWest7 · 合并时间 2026-04-27 01:44

重构重要性 7.29 洞察度 6.00

禁用 piecewise 编译时的 Sequence Parallelism，仅保留 full-graph 支持

建议所有使用 vLLM 中 torch.compile 与 SP 的开发者和研究员阅读此 PR 的讨论，特别是关于配置降级策略和 pass 断言的设计，了解为何 piecewise 编译下的 SP 不被支持。对于希望开启 SP 的用户，文档应明确告知需要启用 inductor 分区或清空 splitting_ops。

refactorcompilationperformance

2026-04-26

#40346 [KV Offload] Offload all KV blocks when doing prefill in P/D

原始 PR · 作者 omerpaz95 · 合并时间 2026-04-26 20:06

功能重要性 6.43 洞察度 5.00

P/D 预填充时全量 offload KV 块

值得精读。PR 虽改动量小（+71/-2），但解决了 P/D 解耦中的关键数据流问题。代码简洁且测试完善，展示了如何通过条件跳过索引更新来实现“全量 offload”语义。对于研究 KV 传输或多节点推理的开发者具有参考价值。

kv-connectorfeaturetest

#40893 [Bugfix] Size FlashInfer NVLink MNNVL workspace to EP group

原始 PR · 作者 Dao007forever · 合并时间 2026-04-26 16:26

缺陷修复重要性 6.22 洞察度 5.00

修复 FlashInfer NVLink workspace 未按 EP 组大小分配的错误

此 PR 虽然是简单的单文件改动，但涉及分布式通信中 EP 组与 DP 组区别的核心概念，值得对分布式训练/推理感兴趣的工程师精读。尤其是 PR body 中对 MNNVL workspace 分配机制的分析（CustomCommunicator.Split 的行为、kernel 断言条件等）提供了很好的底层知识。

bugfixkv-connector

#40338 [LoRA] MoE LoRA Refactor

原始 PR · 作者 jeejeelee · 合并时间 2026-04-26 09:55

重构重要性 9.18 洞察度 7.00

MoE LoRA 重构为显式上下文传递

该 PR 值得精读。它展示了一个高质量重构案例：将隐式装饰器逻辑转换为显式上下文传递的模块化设计。重点关注 MoELoRAContext 的传播路径（从 FusedMoEWithLoRA 构造，通过 FusedMoEModularMethod 传入 FusedMoEKernel 再到 FusedMoEExpertsModular）以及 LoRAExpertsMixin 如何简化专家类的 LoRA 集成。开发者在为新的专家后端添加 LoRA 支持时，应参考此模式。

refactormoequantization

#40806 [Bugfix] Fix the DSML token leakage in DSV4/3.2

原始 PR · 作者 chaunceyjiang · 合并时间 2026-04-26 08:58

缺陷修复重要性 6.97 洞察度 5.00

修复 DSV4/3.2 流式推理中 DSML 标记泄漏

该 PR 值得仔细阅读，特别是 `_extract_content` 的设计和 `partial_tag_overlap` 的使用方式。对于实现流式标记解析的其他 parser（如 hermes, kimi-k2）有参考价值，展示了如何安全地处理跨 chunk 标记边界。

bugfixtool-callingdeepseek

#40865 [Bugfix][MoE] Only unpad routed output before shared expert add

原始 PR · 作者 netanel-haber · 合并时间 2026-04-26 04:50

缺陷修复重要性 5.56 洞察度 6.00

修复无共享 expert 时 routed 输出截断过晚导致 shape 不匹配

推荐精读该 PR 核心变更以理解 fused_moe runner 中 routed 输出截断的时序依赖。若不甚了解原始 padding 逻辑及 shared expert add 的交互，容易忽略条件分支的微妙影响。该 PR 本身改动极小但历史背景丰富（关联 #40794、#35949），是研究复杂 MoE 层数据流的好教材。

bugfixmoe

#39403 [kv_offload+HMA][11/N]: Support store with multiple KV groups

原始 PR · 作者 orozery · 合并时间 2026-04-26 01:00

功能重要性 8.00 洞察度 6.00

支持多 KV 组的 offloading store 操作

该 PR 作为 kv_offload+HMA 系列第 11 部分，核心重构值得关注。建议精读 review 评论，特别是关于 block_size_factor > 1 时的切片和索引推进问题。如果计划使用多组 offloading，请确保这些潜在 bug 已被修复或理解其影响。

kv-connectorfeaturerefactor

2026-04-25

#40767 [CI][AMD]BugFix] Fix deadlock occuring in test_moe_layer

原始 PR · 作者 rasmith · 合并时间 2026-04-25 21:34

缺陷修复重要性 3.47 洞察度 5.00

修复 MI300 上 MoE 测试死锁问题

此 PR 值得精读，展示了在多 worker 并行测试中处理非确定性缓存回收的一种简洁有效方法：使用分布式 barrier 保持 worker 同步，而非复杂的 GC 操作。

bugfixrocmmoe

第 128 / 253 页 · 共 2018 条

上一页 1 … 126 127 128 129 130 … 253 下一页