Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-05-31 02:27 同步状态:空闲 下次计划:2026-05-31 03:27

PR 列表

更多筛选
2026-04-27
重构 重要性 7.29 洞察度 6.00

禁用 piecewise 编译时的 Sequence Parallelism,仅保留 full-graph 支持

建议所有使用 vLLM 中 torch.compile 与 SP 的开发者和研究员阅读此 PR 的讨论,特别是关于配置降级策略和 pass 断言的设计,了解为何 piecewise 编译下的 SP 不被支持。对于希望开启 SP 的用户,文档应明确告知需要启用 inductor 分区或清空 splitting_ops。

2026-04-26
功能 重要性 6.43 洞察度 5.00

P/D 预填充时全量 offload KV 块

值得精读。PR 虽改动量小(+71/-2),但解决了 P/D 解耦中的关键数据流问题。代码简洁且测试完善,展示了如何通过条件跳过索引更新来实现“全量 offload”语义。对于研究 KV 传输或多节点推理的开发者具有参考价值。

缺陷修复 重要性 6.22 洞察度 5.00

修复 FlashInfer NVLink workspace 未按 EP 组大小分配的错误

此 PR 虽然是简单的单文件改动,但涉及分布式通信中 EP 组与 DP 组区别的核心概念,值得对分布式训练/推理感兴趣的工程师精读。尤其是 PR body 中对 MNNVL workspace 分配机制的分析(CustomCommunicator.Split 的行为、kernel 断言条件等)提供了很好的底层知识。

#40338 [LoRA] MoE LoRA Refactor

原始 PR · 作者 jeejeelee · 合并时间 2026-04-26 09:55

重构 重要性 9.18 洞察度 7.00

MoE LoRA 重构为显式上下文传递

该 PR 值得精读。它展示了一个高质量重构案例:将隐式装饰器逻辑转换为显式上下文传递的模块化设计。重点关注 MoELoRAContext 的传播路径(从 FusedMoEWithLoRA 构造,通过 FusedMoEModularMethod 传入 FusedMoEKernel 再到 FusedMoEExpertsModular)以及 LoRAExpertsMixin 如何简化专家类的 LoRA 集成。开发者在为新的专家后端添加 LoRA 支持时,应参考此模式。

缺陷修复 重要性 6.97 洞察度 5.00

修复 DSV4/3.2 流式推理中 DSML 标记泄漏

该 PR 值得仔细阅读,特别是 `_extract_content` 的设计和 `partial_tag_overlap` 的使用方式。对于实现流式标记解析的其他 parser(如 hermes, kimi-k2)有参考价值,展示了如何安全地处理跨 chunk 标记边界。

缺陷修复 重要性 5.56 洞察度 6.00

修复无共享 expert 时 routed 输出截断过晚导致 shape 不匹配

推荐精读该 PR 核心变更以理解 fused_moe runner 中 routed 输出截断的时序依赖。若不甚了解原始 padding 逻辑及 shared expert add 的交互,容易忽略条件分支的微妙影响。该 PR 本身改动极小但历史背景丰富(关联 #40794、#35949),是研究复杂 MoE 层数据流的好教材。

功能 重要性 8.00 洞察度 6.00

支持多 KV 组的 offloading store 操作

该 PR 作为 kv_offload+HMA 系列第 11 部分,核心重构值得关注。建议精读 review 评论,特别是关于 block_size_factor > 1 时的切片和索引推进问题。如果计划使用多组 offloading,请确保这些潜在 bug 已被修复或理解其影响。

2026-04-25
缺陷修复 重要性 3.47 洞察度 5.00

修复 MI300 上 MoE 测试死锁问题

此 PR 值得精读,展示了在多 worker 并行测试中处理非确定性缓存回收的一种简洁有效方法:使用分布式 barrier 保持 worker 同步,而非复杂的 GC 操作。

参与讨论