Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-13 22:49 同步状态:空闲 下次计划:2026-06-13 23:49

PR 列表

更多筛选
2026-06-05

#44603 fix: pad dummy run query_start_loc

原始 PR · 作者 UranusSeven · 合并时间 2026-06-05 15:43

缺陷修复 重要性 5.51 洞察度 3.00

修复 dummy run 中 query_start_loc 填充不足

值得快速合入,但建议补充单元测试覆盖 dummy run 的 query_start_loc 填充行为,防止回归。

性能优化 重要性 5.60 洞察度 5.00

使用 workspace manager 替换 ROCm 稀疏索引器动态分配

建议相关开发者仔细阅读,尤其是 workspace manager 的使用模式,以及如何在不影响 `torch.compile` 的情况下预留内存。对于 ROCm 稀疏索引器的维护者,这是一次重要的对齐。

功能 重要性 9.18 洞察度 6.00

集成 Aiter hipBLASLt GEMM 在线调优与测试

推荐 ROCm 相关开发者精读。该 PR 展示了如何在 vLLM 内核选择系统中集成第三方库 kernel 的模式:通过 `is_supported`/`can_implement` 门控、`process_weights_after_loading` 预处理权重、`apply_scaled_mm` 执行计算。环境变量组合条件检查的设计值得借鉴(平台检查 + 多个 flag 组合)。fake impl 的维度正确性对 torch.compile 至关重要。

#44605 [CI/Build] Disable CPU-Compatibility Tests

原始 PR · 作者 bigPYJ1151 · 合并时间 2026-06-05 13:14

基础设施 重要性 4.21 洞察度 1.00

禁用因网络策略不可用的CPU兼容性测试

该PR无需精读,属于运维层面的临时修复。值得关注的点是:团队采用了注释而非删除的方式保留配置,体现了良好的可恢复性设计。

参与讨论