Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-12

#39846 [BugFix] Prevent orphaned process on NCCL destroy

原始 PR · 作者 jeffreywang-anyscale · 合并时间 2026-05-12 03:25

缺陷修复重要性 6.75 洞察度 6.00

改用 ncclCommAbort 在守护线程中执行，防止不协调关闭时的死锁和孤儿进程

推荐合并。该 PR 解决了生产环境中棘手的死锁问题，设计借鉴了 PyTorch 的成熟实践。建议后续补充超时时间的可配置性及增加单元测试，以覆盖更多边缘场景。

bugfixncclnvidia

#41877 [CI] Add tests/parser to CI coverage

原始 PR · 作者 sfeng33 · 合并时间 2026-05-12 03:08

基础设施重要性 2.55 洞察度 2.00

将 tests/parser 加入 CI 覆盖率

该 PR 变更简单明了，无需精读。值得关注的是 CI 配置的维护模式：新增测试目录后需同步更新两个配置文件。

ci/buildtest

#41825 [ROCm][Perf] Fix RMSNorm+Quant fusion for gfx950 (non-fnuz)

原始 PR · 作者 frida-andersson · 合并时间 2026-05-12 03:00

性能优化重要性 8.52 洞察度 6.00

修复gfx950上RMSNorm+FP8融合，延迟降3.3%

值得精读该PR，尤其是`matcher_utils.py`的修正和`DoubleAiterRMSFp8GroupQuantPattern`的声明式模式实现。它展示了从手动FX图变换到声明式模式匹配的演进思路，以及view-tolerant变体处理实际生产图中常见噪声的经验。设计决策（重复rms_norm而非保留未融合的16位读取）也有借鉴意义。建议在撰写自定义编译pass时参考此模式。

rocmperformancedeepseek

#42201 [Bugfix] Fix int32 overflow in DeepGEMM SiLU/mul FP8 Triton kernel

原始 PR · 作者 Flink-ddd · 合并时间 2026-05-12 02:52

缺陷修复重要性 5.91 洞察度 5.00

修复 DeepGEMM SiLU/mul FP8 内核 int32 溢出

建议精读该 PR，了解 Triton kernel 中 int32 溢出的典型模式及修复方式，可作为后续类似问题的参考。

bugfixperformancequantization

#41987 [Docs] Add Apple Silicon documentation for vLLM-Metal GPU support

原始 PR · 作者 alexagriffith · 合并时间 2026-05-12 02:34

文档重要性 3.70 洞察度 2.00

为 Apple Silicon 添加 vLLM-Metal GPU 文档

此 PR 是用户体验文档改进，值得了解以在文档中推广新平台。对于关注非 NVIDIA 平台支持的读者可精读；否则只作参考。

documentationfeature

#42190 Add documentation about vLLM FIPS compliance

原始 PR · 作者 vrdn-23 · 合并时间 2026-05-12 02:17

文档重要性 3.01 洞察度 2.00

添加 FIPS 合规文档说明

值得阅读该新增章节，尤其是需要在 FIPS 启用主机上部署 vLLM 的团队。文档结构清晰，配置说明具体，可快速参考。

documentationsecurityfips

#42202 [Model Runner V2] Fix `seq_lens_cpu_upper_bound`

原始 PR · 作者 njhill · 合并时间 2026-05-12 01:37

缺陷修复重要性 6.72 洞察度 5.00

修复 MTP 模式下 CPU mirror 的 computed tokens 发散问题

建议精读 `update_requests` 和 `is_prefilling` 的改动逻辑，理解 computed tokens 状态同步方式；可关注后续是否添加性能优化。

bugfixv1scheduler

#41812 [ROCm][DSv4] implement flash sparse mla with triton kernels

原始 PR · 作者 whx-sjtu · 合并时间 2026-05-12 00:27

功能重要性 9.00 洞察度 5.00

用 Triton 为 ROCm DeepSeekV4 稀疏 MLA 加速

该 PR 值得精读，尤其是新增的 Triton kernel 实现和 ROCm backend 集成方式。设计决策中，将 platform-specific 逻辑从 model layer 下沉到 backend 选择是良好的分离。但需关注 review 中提出的正确性风险是否在合并前解决。

rocmv1kernel

第 93 / 269 页 · 共 2148 条

上一页 1 … 91 92 93 94 95 … 269 下一页