Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-12
缺陷修复 重要性 6.75 洞察度 6.00

改用 ncclCommAbort 在守护线程中执行,防止不协调关闭时的死锁和孤儿进程

推荐合并。该 PR 解决了生产环境中棘手的死锁问题,设计借鉴了 PyTorch 的成熟实践。建议后续补充超时时间的可配置性及增加单元测试,以覆盖更多边缘场景。

#41877 [CI] Add tests/parser to CI coverage

原始 PR · 作者 sfeng33 · 合并时间 2026-05-12 03:08

基础设施 重要性 2.55 洞察度 2.00

将 tests/parser 加入 CI 覆盖率

该 PR 变更简单明了,无需精读。值得关注的是 CI 配置的维护模式:新增测试目录后需同步更新两个配置文件。

性能优化 重要性 8.52 洞察度 6.00

修复gfx950上RMSNorm+FP8融合,延迟降3.3%

值得精读该PR,尤其是`matcher_utils.py`的修正和`DoubleAiterRMSFp8GroupQuantPattern`的声明式模式实现。它展示了从手动FX图变换到声明式模式匹配的演进思路,以及view-tolerant变体处理实际生产图中常见噪声的经验。设计决策(重复rms_norm而非保留未融合的16位读取)也有借鉴意义。建议在撰写自定义编译pass时参考此模式。

#42190 Add documentation about vLLM FIPS compliance

原始 PR · 作者 vrdn-23 · 合并时间 2026-05-12 02:17

文档 重要性 3.01 洞察度 2.00

添加 FIPS 合规文档说明

值得阅读该新增章节,尤其是需要在 FIPS 启用主机上部署 vLLM 的团队。文档结构清晰,配置说明具体,可快速参考。

#42202 [Model Runner V2] Fix `seq_lens_cpu_upper_bound`

原始 PR · 作者 njhill · 合并时间 2026-05-12 01:37

缺陷修复 重要性 6.72 洞察度 5.00

修复 MTP 模式下 CPU mirror 的 computed tokens 发散问题

建议精读 `update_requests` 和 `is_prefilling` 的改动逻辑,理解 computed tokens 状态同步方式;可关注后续是否添加性能优化。

功能 重要性 9.00 洞察度 5.00

用 Triton 为 ROCm DeepSeekV4 稀疏 MLA 加速

该 PR 值得精读,尤其是新增的 Triton kernel 实现和 ROCm backend 集成方式。设计决策中,将 platform-specific 逻辑从 model layer 下沉到 backend 选择是良好的分离。但需关注 review 中提出的正确性风险是否在合并前解决。

参与讨论