Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 09:45 同步状态:空闲 下次计划:2026-06-04 10:45

PR 列表

更多筛选
2026-05-12

#42202 [Model Runner V2] Fix `seq_lens_cpu_upper_bound`

原始 PR · 作者 njhill · 合并时间 2026-05-12 01:37

缺陷修复 重要性 6.72 洞察度 5.00

修复 MTP 模式下 CPU mirror 的 computed tokens 发散问题

建议精读 `update_requests` 和 `is_prefilling` 的改动逻辑,理解 computed tokens 状态同步方式;可关注后续是否添加性能优化。

功能 重要性 9.00 洞察度 5.00

用 Triton 为 ROCm DeepSeekV4 稀疏 MLA 加速

该 PR 值得精读,尤其是新增的 Triton kernel 实现和 ROCm backend 集成方式。设计决策中,将 platform-specific 逻辑从 model layer 下沉到 backend 选择是良好的分离。但需关注 review 中提出的正确性风险是否在合并前解决。

性能优化 重要性 7.17 洞察度 6.00

使用 Cutlass FP8 实现批量不变性,延迟降低 28.9%

该 PR 值得精读,尤其关注:1)如何通过固定 CUTLASS 配置实现 batch invariance 并保持正确性;2)FP8 线性层 `apply` 的分支设计兼顾性能与回退。对使用 FP8 批处理推理的团队有直接影响。

2026-05-11
缺陷修复 重要性 5.53 洞察度 3.00

修复 Kimi K2.6 mm_projector 输入 dtype 不匹配崩溃

建议精读该 PR,了解多模态模型中自定义 forward 函数与 batch invariance 交互时可能的 dtype 问题。设计上,从 projector 的权重 dtype 推断预期输入 dtype 是合理做法,但可考虑更通用的契约(如所有涉及预处理的函数都显式转换)。

缺陷修复 重要性 5.24 洞察度 3.00

修复 modelopt 量化方法名检查的边界问题

建议快速合并。变更小(1 行)、理由清晰、风险低,且与代码库中其他位置的已有逻辑保持一致。值得关注的是该函数的历史缺陷(精确匹配 vs. 前缀匹配),可作为未来重构时的参考。

重构 重要性 5.71 洞察度 2.00

清理 batch_invariant 模块的死代码与无用导入

该 PR 属于纯粹的代码清理,无功能性变更,不值得深入阅读。但作为代码维护的正面例子,可启发团队成员主动清理死代码。

#41942 [ROCm] Clean up a bit the AITER FA backend

原始 PR · 作者 pschlan-amd · 合并时间 2026-05-11 22:45

性能优化 重要性 6.23 洞察度 4.00

清理 ROCm AITER FA 后端,优化 decode 延迟

值得精读。该 PR 展示了两个常见优化模式:①移除未使用的元数据以减少计算和内存开销;②避免不必要的设备到主机同步。对于在高延迟 PCIe/NUMA 环境下运行 decode-heavy 推理负载的团队,这种条件性同步技巧尤为实用。

参与讨论