Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-14 00:53 同步状态:空闲 下次计划:2026-06-14 01:53

PR 列表

更多筛选
2026-05-30
缺陷修复 重要性 6.51 洞察度 6.00

修复 Gemma4 MTP TP>1 时 CUDA 非法内存访问

值得精读。该 PR 展示了 CUDA graph replay 场景下的经典问题:中间张量生命周期短于 graph 重放周期,导致非法内存访问。采用缓存 tensor 并确保 contiguous 的修复模式可作为团队内部处理类似问题的参考。

基础设施 重要性 2.51 洞察度 1.00

新增 Rust 前端代码所有者

该 PR 属于治理和基础设施变更,内容简单直接。建议快速合并以正式化 Rust 前端所有权分配,无需深入审查实现细节。

功能 重要性 6.18 洞察度 5.00

ROCm AITer Flash Attention 后端支持 attention sink

建议精读 `rocm_aiter_fa.py` 中 decode 路径的内核切换逻辑,这是一个典型的「功能开关驱动内核选择」模式。建议作者补充对 AITer 版本的兼容性处理,并添加至少一个单元测试验证 sinks 路径不被意外绕过。

缺陷修复 重要性 3.97 洞察度 5.00

修复 RMSNorm 内核权重 dtype 精度回归

建议所有用户升级此修复。对于内核贡献者,本 PR 提供了一个重要的数值精度决策案例:在编写 CUDA kernel 时,必须始终与 Python 前端的 dtype 规范保持一致,即使 FP32 直观上更精确,也要考虑累积误差。值得关注的设计决策:拒绝 'FP32 总是更好' 的假设,通过实验证据证明原生 dtype 的正确性。

缺陷修复 重要性 4.92 洞察度 4.00

修复非ROCm平台导入rocm模块异常

值得阅读。该 PR 展示了处理平台特定导入的最佳实践:避免在模块导入时执行可能失败的硬件检测,使用条件导入和本地 fallback 函数。对于测试文件的平台兼容性处理有参考价值。设计决策清晰,讨论聚焦。

缺陷修复 重要性 6.21 洞察度 5.00

分离 Phi3V 测试中特殊 token 验证用例

建议接受此 PR。变更清晰、动机明确,且拆分后的测试覆盖更精确。可作为测试分离重构的参考案例。

参与讨论