Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-04-22 01:07 同步状态：空闲下次计划：2026-04-22 02:07

PR 列表

已合并 873 · 已分析 873

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-07

#24675 [MoE Refactor][Test] FusedMoE layer test

原始 PR · 作者 bnellnm · 合并时间 2026-04-07 01:17

测试重要性 8.21 洞察度 5.00

为FusedMoE层新增全面的单元测试套件，覆盖多种并行策略和量化方案。

该PR值得测试工程师和MoE模块开发者精读，以了解FusedMoE的测试设计、并行配置处理和量化支持。特别关注 `MoETestConfig` 数据类的设计、`_test_loop` 的组织结构以及量化函数重构的逻辑，这些决策对后续测试扩展有参考价值。

moetestquantization

#37635 [NIXL][Mamba][3/N] Heterogeneous TP: 3-read conv state transfer

原始 PR · 作者 ZhanqiuHu · 合并时间 2026-04-07 01:07

功能重要性 9.18 洞察度 6.00

为混合注意力+Mamba模型实现异构TP的3-read RDMA卷积状态传输，支持Prefill与Decode引擎TP大小不同。

该PR值得精读，尤其是对于从事分布式推理或Mamba模型优化的工程师。关注设计决策：3-read传输如何利用DS布局避免排列开销、HeteroTPTransferConfig作为单一数据源的处理方式、以及GQA头映射修正对准确性的关键影响。建议结合#37416和#37603理解整体演进脉络。

kv-connectorfeaturev1

#35326 [MoE Refactor] Split of DefaultMoERunner class

原始 PR · 作者 bnellnm · 合并时间 2026-04-07 00:41

重构重要性 9.00 洞察度 7.00

重构 MoE runner 类结构，分离通用逻辑与 DP chunking 处理。

建议技术管理者和工程师精读此 PR，重点关注： - 设计决策：组合模式在 `ChunkingMoERunner` 中的应用，以及基类提取的策略。 - 性能优化：workspace 缓冲区的共享机制，对 CUDA 图兼容性的影响。 - 后续演进：讨论中提到的待办事项，如 #35949 将移除 `reduce_results` 覆盖。

refactorv1core

#38944 [Core] Re-enable Inductor pre-grad passes in standalone compile (torch>=2.12)

原始 PR · 作者 frgossen · 合并时间 2026-04-07 00:37

基础设施重要性 3.00 洞察度 3.00

为PyTorch 2.12+重新启用Inductor预梯度优化通道，修复上游问题。

该PR变更简单直接，无需深入精读。值得关注的是作者提供的详细基准测试和与上游PyTorch问题的关联，可作为依赖版本管理的最佳实践参考。

v1torch.compile

2026-04-06

#38842 [Refactor] Remove unused dead code

原始 PR · 作者 yewentao256 · 合并时间 2026-04-06 23:52

重构重要性 3.00 洞察度 2.00

清理推测解码、注意力内核和Ray执行器中的未使用死代码。

该PR是简单的清理工作，无需精读。对于关注代码质量的工程师，可快速浏览以了解哪些过时代码被移除，特别是MLP speculator中旧版V0方法的清理，反映了推测解码模块的演进。

refactorspeculative-decodingv1

#38047 [Models][GDN] Remove GPU/CPU syncs in `GDNAttentionMetadata.build` during speculative decoding

原始 PR · 作者 lgeiger · 合并时间 2026-04-06 23:39

性能优化重要性 6.00 洞察度 5.00

移除推测解码中GDNAttentionMetadata.build的GPU/CPU同步，提升吞吐和首token延迟。

该PR值得精读，尤其对于关注性能优化和推测解码的工程师。关键设计决策是将掩码移至CPU以利用PyTorch的异步索引支持，这是一个典型的设备放置优化案例。建议关注变更如何保持功能一致性，以及output_size参数的作用。

performancev1speculative-decoding

#38879 [Gemma4] Enable Fast Prefill Optimization

原始 PR · 作者 LucasWilkinson · 合并时间 2026-04-06 23:19

性能优化重要性 6.00 洞察度 5.00

为 Gemma 4 模型启用快速预填充优化，显著降低首字节延迟并提升吞吐量。

建议技术管理者和工程师精读此 PR，特别是关注 `Gemma4SelfDecoderLayers` 类的设计和快速预填充逻辑的实现。值得注意的设计决策包括条件化编译和 KV 共享元数据的使用，对于类似模型性能优化具有借鉴价值。

gemma4performancev1

#38663 [Feat][Core] safely abort requests when FSM fails to advance

原始 PR · 作者 walterbm · 合并时间 2026-04-06 23:00

缺陷修复重要性 6.00 洞察度 6.00

修复结构化输出FSM失败时请求挂起的bug，安全中止请求。

建议工程师阅读以了解FSM失败处理的设计决策，特别是resumable字段的重用和状态管理；关注调度器update_from_output方法的变更，这对理解结构化输出错误处理有价值。

bugfixstructured-outputv1

第 54 / 110 页 · 共 873 条

上一页 1 … 52 53 54 55 56 … 110 下一页

支持 Prhub ♥