Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-31

#43956 [CI/Build] Enable Step3p7ForConditionalGeneration testing

原始 PR · 作者 jeejeelee · 合并时间 2026-05-31 13:16

测试重要性 4.30 洞察度 3.00

启用 Step3p7ForConditionalGeneration 在线测试

此 PR 代码量小，逻辑清晰，可直接合并。建议关注如果未来模型配置变更，需同步更新 `hf_overrides`。

testmulti-modalityci/build

#41813 [CPU][Zen] Route W8A8 and W4A16 linear inference through zentorch on AMD Zen CPUs

原始 PR · 作者 aadwived · 合并时间 2026-05-31 03:17

功能重要性 9.18 洞察度 7.00

AMD Zen CPU 上 zentorch 加速 W8A8/W4A16 线性层

值得精读，尤其是 kernel 选择器 fallback 设计、平台检测函数抽象以及量化权重兼容性检查。建议在后续 PR 中考虑引入 `PlatformEnum.ZEN` 并增加端到端集成测试。

featurecpuquantization

#44050 [MRV2] Support breakable CUDA graph

原始 PR · 作者 WoosukKwon · 合并时间 2026-05-31 00:40

功能重要性 7.08 洞察度 5.00

MRV2 支持可中断 CUDA 图

本 PR 是 MRV2 CUDA graph 功能的重要扩展，值得关注其设计：通过 `run_pw_graph` 统一两种分段 CUDA graph 实现，降低调用方复杂度。建议 review 者重点关注 `cudagraph_mode.has_piecewise_cudagraphs()` 的语义是否正确覆盖了启用条件。

featurev1cudagraph

2026-05-30

#43909 [Bug] Fix gemma4 MTP IMA issue when TP>1, `CUDA error: an illegal memory access was encountered`

原始 PR · 作者 yewentao256 · 合并时间 2026-05-30 22:34

缺陷修复重要性 6.51 洞察度 6.00

修复 Gemma4 MTP TP>1 时 CUDA 非法内存访问

值得精读。该 PR 展示了 CUDA graph replay 场景下的经典问题：中间张量生命周期短于 graph 重放周期，导致非法内存访问。采用缓存 tensor 并确保 contiguous 的修复模式可作为团队内部处理类似问题的参考。

bugfixkernelcudagraph

#44047 [Governance] Add @BugenZhao as Rust frontend code owner

原始 PR · 作者 BugenZhao · 合并时间 2026-05-30 22:23

基础设施重要性 2.51 洞察度 1.00

新增 Rust 前端代码所有者

该 PR 属于治理和基础设施变更，内容简单直接。建议快速合并以正式化 Rust 前端所有权分配，无需深入审查实现细节。

infraci/builddocumentation

#43817 [ROCm] Add attention sink support to AITer flash attention backend

原始 PR · 作者 sphinx07 · 合并时间 2026-05-30 18:13

功能重要性 6.18 洞察度 5.00

ROCm AITer Flash Attention 后端支持 attention sink

建议精读 `rocm_aiter_fa.py` 中 decode 路径的内核切换逻辑，这是一个典型的「功能开关驱动内核选择」模式。建议作者补充对 AITer 版本的兼容性处理，并添加至少一个单元测试验证 sinks 路径不被意外绕过。

rocmfeaturekernel

#42379 [Bugfix] Fix RMSNorm kernels to multiply in weight's native dtype

原始 PR · 作者 liulanze · 合并时间 2026-05-30 14:16

缺陷修复重要性 3.97 洞察度 5.00

修复 RMSNorm 内核权重 dtype 精度回归

建议所有用户升级此修复。对于内核贡献者，本 PR 提供了一个重要的数值精度决策案例：在编写 CUDA kernel 时，必须始终与 Python 前端的 dtype 规范保持一致，即使 FP32 直观上更精确，也要考虑累积误差。值得关注的设计决策：拒绝 'FP32 总是更好' 的假设，通过实验证据证明原生 dtype 的正确性。

bugfixkernelnvidia

#43571 [BugFix][Platform] Fix import vllm.platforms.rocm error on non-CUDA test_gpt_oss.py

原始 PR · 作者 Liangliang-Ma · 合并时间 2026-05-30 14:16

缺陷修复重要性 4.92 洞察度 4.00

修复非ROCm平台导入rocm模块异常

值得阅读。该 PR 展示了处理平台特定导入的最佳实践：避免在模块导入时执行可能失败的硬件检测，使用条件导入和本地 fallback 函数。对于测试文件的平台兼容性处理有参考价值。设计决策清晰，讨论聚焦。

bugfixrocmtest

第 17 / 269 页 · 共 2148 条

上一页 1 … 15 16 17 18 19 … 269 下一页