Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 03:31 同步状态：空闲下次计划：2026-05-31 04:31

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-01

#41064 [Core] Simplify handling of `scheduler_reserve_full_isl` option

原始 PR · 作者 njhill · 合并时间 2026-05-01 09:10

重构重要性 7.16 洞察度 4.00

合并 admission check 到 KV cache 分配，简化调度器

值得精读，展示了将 admission check 与分配逻辑合并以简化接口的设计模式；同时注意时序问题在类似场景中的潜在影响。

refactorschedulertest

#41326 Faster per-token fp8 group quant packed kernel for blackwell

原始 PR · 作者 zyongye · 合并时间 2026-05-01 09:09

性能优化重要性 6.79 洞察度 6.00

Blackwell FP8分组量化寄存器内核，加速60%-2x

该 PR 值得精读，特别是 CUDA 寄存器优化和 shuffle 规约技术。评审中的三个高优先级问题展示了正确性与文档的平衡。后续同类优化可借鉴其 `alignas` 和 `int64_t` 的前置检查。

performancekernelquantization

#41300 [DeepSeek] Use torch.mm for bf16xbf16->fp32 gemm

原始 PR · 作者 WoosukKwon · 合并时间 2026-05-01 07:28

重构重要性 7.18 洞察度 6.00

删除自定义 bf16→fp32 GEMM，改用 torch.mm

该 PR 是清理自定义算子的好示例，展示了如何利用 PyTorch 原生功能替代手写 CUDA 扩展。对于希望减少自定义代码依赖的开发者有参考价值。建议验证环境中的 PyTorch 版本是否支持 `torch.mm(..., out_dtype=...)`。整体风险可控，可合入。

refactordeepseekcleanup

#41401 [Bugfix] Fix RoutedExpertsCapturer for Gemma 4 MoE (top_k_experts)

原始 PR · 作者 lequytra · 合并时间 2026-05-01 07:19

缺陷修复重要性 6.97 洞察度 4.00

修复 Gemma 4 MoE 专家捕获器配置键不兼容

此 PR 值得快速合并，修复明确且影响范围小。建议未来在模型配置兼容性改进中考虑添加单元测试（如测试 `_get_num_experts_per_tok` 对不同配置的响应），避免类似回归。

bugfixmodelmoe

#40960 [DSV4] Add BF16 and MXFP8 A2A support for flashinfer a2a one sided

原始 PR · 作者 zyongye · 合并时间 2026-05-01 06:33

功能重要性 7.82 洞察度 6.00

为FlashInfer单边A2A添加BF16和MXFP8调度支持

本 PR 是 DeepSeek V4 性能优化系列的重要一环，值得 MoE 通信或量化相关开发者精读。关键设计决策包括：工作区尺寸参数化、推迟量化模式、通过修改 `expects_unquantized_inputs` 将量化职责从专家层移至通信层。review 中关于条件分支可达性的讨论也值得关注。

moeperformancedeepseek

#41285 [Model Runner v2] Fix v2 compile counter `num_gpu_runner_capture_triggers` and `num_cudagraph_captured`

原始 PR · 作者 yewentao256 · 合并时间 2026-05-01 06:20

缺陷修复重要性 5.05 洞察度 5.00

修复 V2 模型运行器 CUDA Graph 计数器缺失

值得精读，尤其关注计数器放置位置的设计讨论。该 PR 展示了在多文件架构下如何正确维护跨模块计数器，以及处理 review 中不同设计意见的决策过程。

bugfixv1nvidia

#41419 Fix typo in log message for indexer cache

原始 PR · 作者 mgoin · 合并时间 2026-05-01 06:02

缺陷修复重要性 4.07 洞察度 1.00

修复 indexer 缓存日志中的拼写错误

可直接合并，无需额外审查。

bugfixcleanupdeepseek

#40033 [NVFP4][Hopper/AMD Instinct] Add Triton kernels for NVFP4 dequantization and QDQ emulation

原始 PR · 作者 fxmarty-amd · 合并时间 2026-05-01 05:35

功能重要性 8.81 洞察度 7.00

添加Triton内核加速NVFP4反量化和QDQ模拟

值得精读： - 学习 Triton 内核优化技巧：二进制树 E2M1 查找、2D tile 批处理、interleave 合并写。 - 理解设备间功能兼容性处理：通过 `current_platform.is_cuda_alike()` 动态切换实现。 - 关注社区反馈中对类型安全的关注，建议合并后进一步放宽 `global_scale` 类型以支持 float。

quantizationperformancerocm

第 112 / 253 页 · 共 2019 条

上一页 1 … 110 111 112 113 114 … 253 下一页