Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-31

#44050 [MRV2] Support breakable CUDA graph

原始 PR · 作者 WoosukKwon · 合并时间 2026-05-31 00:40

功能 重要性 7.08 洞察度 5.00

MRV2 支持可中断 CUDA 图

本 PR 是 MRV2 CUDA graph 功能的重要扩展,值得关注其设计:通过 `run_pw_graph` 统一两种分段 CUDA graph 实现,降低调用方复杂度。建议 review 者重点关注 `cudagraph_mode.has_piecewise_cudagraphs()` 的语义是否正确覆盖了启用条件。

2026-05-30
缺陷修复 重要性 6.51 洞察度 6.00

修复 Gemma4 MTP TP>1 时 CUDA 非法内存访问

值得精读。该 PR 展示了 CUDA graph replay 场景下的经典问题:中间张量生命周期短于 graph 重放周期,导致非法内存访问。采用缓存 tensor 并确保 contiguous 的修复模式可作为团队内部处理类似问题的参考。

基础设施 重要性 2.51 洞察度 1.00

新增 Rust 前端代码所有者

该 PR 属于治理和基础设施变更,内容简单直接。建议快速合并以正式化 Rust 前端所有权分配,无需深入审查实现细节。

功能 重要性 6.18 洞察度 5.00

ROCm AITer Flash Attention 后端支持 attention sink

建议精读 `rocm_aiter_fa.py` 中 decode 路径的内核切换逻辑,这是一个典型的「功能开关驱动内核选择」模式。建议作者补充对 AITer 版本的兼容性处理,并添加至少一个单元测试验证 sinks 路径不被意外绕过。

缺陷修复 重要性 3.97 洞察度 5.00

修复 RMSNorm 内核权重 dtype 精度回归

建议所有用户升级此修复。对于内核贡献者,本 PR 提供了一个重要的数值精度决策案例:在编写 CUDA kernel 时,必须始终与 Python 前端的 dtype 规范保持一致,即使 FP32 直观上更精确,也要考虑累积误差。值得关注的设计决策:拒绝 'FP32 总是更好' 的假设,通过实验证据证明原生 dtype 的正确性。

缺陷修复 重要性 4.92 洞察度 4.00

修复非ROCm平台导入rocm模块异常

值得阅读。该 PR 展示了处理平台特定导入的最佳实践:避免在模块导入时执行可能失败的硬件检测,使用条件导入和本地 fallback 函数。对于测试文件的平台兼容性处理有参考价值。设计决策清晰,讨论聚焦。

参与讨论