#39846 [BugFix] Prevent orphaned process on NCCL destroy
原始 PR · 作者 jeffreywang-anyscale · 合并时间 2026-05-12 03:25
改用 ncclCommAbort 在守护线程中执行,防止不协调关闭时的死锁和孤儿进程
推荐合并。该 PR 解决了生产环境中棘手的死锁问题,设计借鉴了 PyTorch 的成熟实践。建议后续补充超时时间的可配置性及增加单元测试,以覆盖更多边缘场景。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 jeffreywang-anyscale · 合并时间 2026-05-12 03:25
改用 ncclCommAbort 在守护线程中执行,防止不协调关闭时的死锁和孤儿进程
推荐合并。该 PR 解决了生产环境中棘手的死锁问题,设计借鉴了 PyTorch 的成熟实践。建议后续补充超时时间的可配置性及增加单元测试,以覆盖更多边缘场景。
将 tests/parser 加入 CI 覆盖率
该 PR 变更简单明了,无需精读。值得关注的是 CI 配置的维护模式:新增测试目录后需同步更新两个配置文件。
原始 PR · 作者 frida-andersson · 合并时间 2026-05-12 03:00
修复gfx950上RMSNorm+FP8融合,延迟降3.3%
值得精读该PR,尤其是`matcher_utils.py`的修正和`DoubleAiterRMSFp8GroupQuantPattern`的声明式模式实现。它展示了从手动FX图变换到声明式模式匹配的演进思路,以及view-tolerant变体处理实际生产图中常见噪声的经验。设计决策(重复rms_norm而非保留未融合的16位读取)也有借鉴意义。建议在撰写自定义编译pass时参考此模式。
修复 DeepGEMM SiLU/mul FP8 内核 int32 溢出
建议精读该 PR,了解 Triton kernel 中 int32 溢出的典型模式及修复方式,可作为后续类似问题的参考。
原始 PR · 作者 alexagriffith · 合并时间 2026-05-12 02:34
为 Apple Silicon 添加 vLLM-Metal GPU 文档
此 PR 是用户体验文档改进,值得了解以在文档中推广新平台。对于关注非 NVIDIA 平台支持的读者可精读;否则只作参考。
添加 FIPS 合规文档说明
值得阅读该新增章节,尤其是需要在 FIPS 启用主机上部署 vLLM 的团队。文档结构清晰,配置说明具体,可快速参考。
修复 MTP 模式下 CPU mirror 的 computed tokens 发散问题
建议精读 `update_requests` 和 `is_prefilling` 的改动逻辑,理解 computed tokens 状态同步方式;可关注后续是否添加性能优化。
用 Triton 为 ROCm DeepSeekV4 稀疏 MLA 加速
该 PR 值得精读,尤其是新增的 Triton kernel 实现和 ROCm backend 集成方式。设计决策中,将 platform-specific 逻辑从 model layer 下沉到 backend 选择是良好的分离。但需关注 review 中提出的正确性风险是否在合并前解决。
参与讨论