Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 02:27 同步状态：空闲下次计划：2026-05-31 03:27

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-30

#39987 [ROCm] Add env flags to disable dynamic MXFP4 quant and enable AITER tuned GEMMs for Attention Projection Layers

原始 PR · 作者 heachary · 合并时间 2026-04-30 07:07

性能优化重要性 7.87 洞察度 5.00

禁用 DeepSeek 注意力投影的动态 MXFP4 量化并启用 AITER 调优 BF16 GEMM

建议阅读 Review 中的讨论，特别是关于避免添加环境变量的决策过程和性能基准的论证。该 PR 展示了如何通过实测数据驱动默认值变更，并保持灵活性。ROCm 相关开发者可关注 `is_tgemm_enabled` 的实现，以便类似场景复用。

rocmperformancequantization

#41235 [Bugfix][Compile] Fix gc.collect/empty_cache patch arity in CUDAGraphWrapper

原始 PR · 作者 roikoren755 · 合并时间 2026-04-30 05:59

缺陷修复重要性 5.16 洞察度 2.00

修复 CUDAGraph 捕获时 gc.collect 参数不匹配

建议立刻合入。该 PR 修复了一个明确的崩溃问题，修改极小且安全。对于使用嵌套 torch.compile 的模型（如 GB200 节点上的场景）至关重要。

bugfixcudagraphnvidia

#35241 Create tests/distributed/test_mnnvl_alltoall.py

原始 PR · 作者 puririshi98 · 合并时间 2026-04-30 05:56

测试重要性 6.20 洞察度 4.00

新增 MNNVL AllToAll 分布式测试套件

对于关心分布式通信和 CI 基础设施的工程师，值得精读测试框架设计，尤其是多进程环境管理和错误传播模式。对于主要关注模型推理逻辑的开发者，可快速浏览了解覆盖范围即可。

testci/buildnvidia

#39366 [BUG] Two phase pause to prevent deadlock

原始 PR · 作者 hao-aaron · 合并时间 2026-04-30 05:51

缺陷修复重要性 8.13 洞察度 6.00

两阶段暂停协议修复 DP 引擎死锁

值得精读的设计案例：如何在不增加同步开销的前提下利用现有 all-reduce 实现全局共识。建议关注两阶段协议的模式以及 `_pause_complete` 多态覆盖的设计。未来可考虑在 `pending_pause` 时触发即时 all-reduce 以降低暂停延迟。

bugfixschedulermoe

#41175 [ROCm][Bugfix]: W4A4 MOE using emulation instead of AITER on MXFP4-supported hardware

原始 PR · 作者 Rohan138 · 合并时间 2026-04-30 05:39

缺陷修复重要性 5.91 洞察度 4.00

修复 ROCm W4A4 MOE 错误使用仿真后端

该 PR 值得精读以了解 PR#39801 引入的回归及修复方式，展示了配置变更如何意外影响调度逻辑，以及 review 中如何通过追问缩小修复范围。对于维护 ROCm/量化栈的工程师有参考价值。

bugfixrocmquantization

#41043 [Perf][Spec Decode] Avoid per-step numpy allocation in prepare_next_t…

原始 PR · 作者 wangluochao902 · 合并时间 2026-04-30 05:20

性能优化重要性 5.84 洞察度 6.00

优化推测解码中每步的numpy分配

值得合并。优化合理且验证充分，改动小，收益明确（尤其是 P99 延迟改善）。Review 中已解决所有疑虑。建议工程师关注类似的 per-step 临时分配模式，特别是在 decode 热路径中。

speculative-decodingperformancenvidia

#41246 [Multimodal][Render] Skip mm processor initialization and warmup for text-only mode

原始 PR · 作者 Isotr0py · 合并时间 2026-04-30 05:16

缺陷修复重要性 4.53 洞察度 4.00

跳过纯文本模式下 MM 处理器初始化与 warmup

**值得精读**。虽然只是一行改动，但它展示了如何利用 registry 层统一的条件判断来避免重复实现，以及通过精确的 API 替代宽泛的布尔标志。对于理解 vLLM 的多模态初始化流程和 `multimodal_config` 的设计有参考价值。

bugfixmulti-modalityperformance

#41059 [CI] Add temperature to bfcl eval, default greedy

原始 PR · 作者 yzong-rh · 合并时间 2026-04-30 05:01

基础设施重要性 3.63 洞察度 3.00

BFCL评估脚本默认使用贪婪解码

该 PR 简单直接，无需深入审查。但可注意文件参数索引的调整（原第 6 个参数 output_dir 变为第 7 个），确保兼容性。

ci/buildmodelfrontend

第 116 / 253 页 · 共 2018 条

上一页 1 … 114 115 116 117 118 … 253 下一页