Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 10:44 同步状态：空闲下次计划：2026-05-31 11:44

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-21

#39733 [Core] Pass donate_graph_module=True to standalone_compile

原始 PR · 作者 frgossen · 合并时间 2026-04-21 01:40

性能优化重要性 4.64 洞察度 3.00

为 PyTorch >= 2.13dev 启用 donate_graph_module 标志，避免编译时不必要的图模块拷贝。

该 PR 代码简单，但体现了对 PyTorch 编译栈新特性的及时集成。值得关注的点是团队在版本号选择上的权衡：他们选择将优化严格限定在 PyTorch 2.13dev 而非 2.12dev，这可能是出于对新 API 稳定性的保守策略。对于关心编译性能或 PyTorch 集成的开发者，可以快速浏览以了解 `donate_graph_module` 参数的启用方式。

compilationperformance

#39959 Update flashinfer to 0.6.8

原始 PR · 作者 bai · 合并时间 2026-04-21 01:37

基础设施重要性 6.49 洞察度 5.00

升级 FlashInfer 至 0.6.8.post1，修复 SM121 MoE 支持和 TRTLLM 注意力后端兼容性。

该 PR 值得精读，重点关注设备支持逻辑的变更（如使用家族检查）和测试修复中的 reshape 错误，这些设计决策反映了硬件兼容性的权衡。同时，注意 Dockerfile 的构建命令调整，以避免类似 shell 注释问题。

nvidiaci/build

#39329 [Core] Label torch trace logging overhead with dynamo_timed

原始 PR · 作者 frgossen · 合并时间 2026-04-21 01:31

重构重要性 4.53 洞察度 3.00

为编译日志函数添加性能计时装饰器，便于分析日志开销。

该 PR 变更简单，适合快速浏览以了解如何利用 `@dynamo_timed` 进行性能观测。对于关注编译性能或 torch 追踪工具使用的开发者，值得参考其装饰器用法。

compilationrefactor

#37601 [EPLB] Refactor Async EPLB synchronization logic

原始 PR · 作者 SageMoore · 合并时间 2026-04-21 01:05

重构重要性 8.98 洞察度 7.00

重构异步EPLB同步逻辑，引入CpuGpuEvent和AsyncEplbLayerResult简化线程间交接。

建议精读此PR，重点关注CpuGpuEvent的设计如何解决CUDA事件跨线程同步的局限性，以及AsyncEplbLayerResult如何封装状态以简化交接逻辑。同时，注意review中关于线程安全的讨论，这对分布式系统开发有重要借鉴意义。

refactor

#35949 [MoE Refactor] Move the shared/fused expert output sum into MoERunnerBase

原始 PR · 作者 bnellnm · 合并时间 2026-04-21 00:28

重构重要性 9.17 洞察度 6.00

将共享/融合专家输出求和移入MoERunnerBase

该 PR 是 MoE 重构系列的核心部分，值得精读。重点理解 `apply_routed_scale_to_output` 的设计决策以及基类如何通过 `_fused_output_is_reduced` 状态跟踪 reduce 状态。建议关注后续 MoE runner 的进一步抽象。

refactormoe

2026-04-20

#40109 [XPU] fix MoE triton backend in online fp8 quantization

原始 PR · 作者 yma11 · 合并时间 2026-04-20 23:31

缺陷修复重要性 6.16 洞察度 4.00

修复 XPU 平台上 MoE Triton 后端在线 FP8 量化的权重转置错误。

该 PR 对于在 XPU 平台上使用 MoE 和 FP8 量化的开发者值得关注。建议重点阅读 `convert_to_fp8_moe_kernel_format` 函数中新增的 XPU 后端路径，理解不同后端权重格式转换的统一设计模式。同时，注意 review 中关于移除冗余平台检查的讨论，这体现了代码简洁性和责任分离的良好实践。

xpubugfixmoe

#37712 Properly enable wvSplitK fp8 path for RDNA

原始 PR · 作者 amd-hhashemi · 合并时间 2026-04-20 23:09

功能重要性 5.74 洞察度 4.00

为 RDNA 架构（gfx12x）启用 wvSplitK FP8 量化路径。

该 PR 变更简洁、目标明确，是硬件支持扩展的典型范例。**值得精读**的部分在于 `is_supported` 方法的设计模式：它清晰地分离了平台检测、硬件能力判断和外部配置依赖，这种模式在 vLLM 中用于管理异构硬件支持时值得借鉴。同时，关注从 `gfx1x` 到 `gfx12x` 的修正，体现了对硬件能力精确控制的重要性。

rocmquantization

#39242 [ROCm] Add MLA dual RMS norm fusion (Q, KV) pass for DeepSeek/Kimi-K2

原始 PR · 作者 rbrugaro-amd · 合并时间 2026-04-20 22:56

功能重要性 8.69 洞察度 6.00

为ROCm平台添加MLA双RMSNorm融合优化，提升DeepSeek-V3/Kimi-K2模型性能。

建议工程团队精读此PR，重点关注`MLADualRMSNormPattern`的模式设计如何动态推导split尺寸，以及`VllmFusionPatternMatcherPass`的使用范例。对于涉及图优化或硬件特定加速的开发者，此PR展示了如何通过torch.inductor模式匹配安全地融合复杂操作子图，具有较高参考价值。

rocmfeaturedeepseek

第 149 / 253 页 · 共 2019 条

上一页 1 … 147 148 149 150 151 … 253 下一页