Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-15
缺陷修复 重要性 5.74 洞察度 5.00

修复 CPU 上 embedding 模型未编译的问题

该 PR 是 CPU 后端 embedding 模型性能退化的重要修复,建议精读并确认随机种子重置顺序是否需要调整。虽修复核心问题,但种子顺序可能引入隐藏的随机状态一致性问题,建议修复。

#42630 gemma3 multi-gpu bug-fix

原始 PR · 作者 pmaybank · 合并时间 2026-05-15 17:32

缺陷修复 重要性 5.08 洞察度 3.00

修复 Gemma3 多 GPU 下形状不匹配 bug

值得合并,属于典型的一行修复 bug。可快速批准合并。建议未来在类似 `RowParallelLinear` 的使用处也显式指定 `input_is_parallel` 参数以增强可读性。

缺陷修复 重要性 6.01 洞察度 3.00

修复 revision/code_revision 未传递到所有模型加载路径的问题

建议合并。这是正确性问题修复,变更小而专注,有测试覆盖(GGUF 路径),且所有改动的模式一致:在缺少 revision/code_revision 参数传递的地方补上。值得关注的设计决策是统一使用 `model_config.revision` 和 `model_config.code_revision` 作为唯一来源,避免后续新增加载路径再次遗漏。

#42025 [ROCm][CI] Stage B gating

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-05-15 16:49

基础设施 重要性 4.74 洞察度 3.00

AMD CI 第二阶段镜像门禁配置

值得关注该 PR 作为 AMD CI 基础设施分阶段扩展的一部分。建议确保所有 mirror 块包含必要的环境变量,并考虑逐步将 optional 测试提升为强制测试以提高覆盖质量。

性能优化 重要性 7.05 洞察度 5.00

DSV4 Pro 启用 FULL_AND_PIECEWISE CUDA 图模式

值得精读,尤其是为 CUDA 图提供稳定元数据 buffer 的做法以及处理嵌套编译冲突的思路。对于动态 shape 切片的潜在性能问题可进一步优化,但作为快速启用已足够。后续 PR 应关注准确率修复和单元测试补充。

重构 重要性 8.55 洞察度 5.00

将 pooling 离线推理逻辑抽取为 PoolingOfflineMixin

值得精读,尤其是对 vLLM 架构感兴趣的工程师。该 PR 展示了如何通过 Mixin 模式将大型类中的功能域解耦,同时保持对外接口不变。为将来进一步拆分 LLM 类或其他类复用 pooling 逻辑提供了参考。建议关注初始化顺序的设计和文档链接的变更。

性能优化 重要性 7.83 洞察度 6.00

跳过无法命中 Prefix Cache 的 SWA 块

值得精读,设计模式(通过 mask 避免无效缓存)可供类似场景借鉴。但需关注 review 中提出的共享物理块断言风险和事件过滤问题,建议在后续 PR 中验证并修复可能的问题。

参与讨论