Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 10:58 同步状态:空闲 下次计划:2026-06-04 11:58

PR 列表

更多筛选
2026-05-12
性能优化 重要性 8.52 洞察度 6.00

修复gfx950上RMSNorm+FP8融合,延迟降3.3%

值得精读该PR,尤其是`matcher_utils.py`的修正和`DoubleAiterRMSFp8GroupQuantPattern`的声明式模式实现。它展示了从手动FX图变换到声明式模式匹配的演进思路,以及view-tolerant变体处理实际生产图中常见噪声的经验。设计决策(重复rms_norm而非保留未融合的16位读取)也有借鉴意义。建议在撰写自定义编译pass时参考此模式。

#42190 Add documentation about vLLM FIPS compliance

原始 PR · 作者 vrdn-23 · 合并时间 2026-05-12 02:17

文档 重要性 3.01 洞察度 2.00

添加 FIPS 合规文档说明

值得阅读该新增章节,尤其是需要在 FIPS 启用主机上部署 vLLM 的团队。文档结构清晰,配置说明具体,可快速参考。

#42202 [Model Runner V2] Fix `seq_lens_cpu_upper_bound`

原始 PR · 作者 njhill · 合并时间 2026-05-12 01:37

缺陷修复 重要性 6.72 洞察度 5.00

修复 MTP 模式下 CPU mirror 的 computed tokens 发散问题

建议精读 `update_requests` 和 `is_prefilling` 的改动逻辑,理解 computed tokens 状态同步方式;可关注后续是否添加性能优化。

功能 重要性 9.00 洞察度 5.00

用 Triton 为 ROCm DeepSeekV4 稀疏 MLA 加速

该 PR 值得精读,尤其是新增的 Triton kernel 实现和 ROCm backend 集成方式。设计决策中,将 platform-specific 逻辑从 model layer 下沉到 backend 选择是良好的分离。但需关注 review 中提出的正确性风险是否在合并前解决。

性能优化 重要性 7.17 洞察度 6.00

使用 Cutlass FP8 实现批量不变性,延迟降低 28.9%

该 PR 值得精读,尤其关注:1)如何通过固定 CUTLASS 配置实现 batch invariance 并保持正确性;2)FP8 线性层 `apply` 的分支设计兼顾性能与回退。对使用 FP8 批处理推理的团队有直接影响。

2026-05-11
缺陷修复 重要性 5.53 洞察度 3.00

修复 Kimi K2.6 mm_projector 输入 dtype 不匹配崩溃

建议精读该 PR,了解多模态模型中自定义 forward 函数与 batch invariance 交互时可能的 dtype 问题。设计上,从 projector 的权重 dtype 推断预期输入 dtype 是合理做法,但可考虑更通用的契约(如所有涉及预处理的函数都显式转换)。

参与讨论