Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 10:58 同步状态：空闲下次计划：2026-06-04 11:58

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-12

#41825 [ROCm][Perf] Fix RMSNorm+Quant fusion for gfx950 (non-fnuz)

原始 PR · 作者 frida-andersson · 合并时间 2026-05-12 03:00

性能优化重要性 8.52 洞察度 6.00

修复gfx950上RMSNorm+FP8融合，延迟降3.3%

值得精读该PR，尤其是`matcher_utils.py`的修正和`DoubleAiterRMSFp8GroupQuantPattern`的声明式模式实现。它展示了从手动FX图变换到声明式模式匹配的演进思路，以及view-tolerant变体处理实际生产图中常见噪声的经验。设计决策（重复rms_norm而非保留未融合的16位读取）也有借鉴意义。建议在撰写自定义编译pass时参考此模式。

rocmperformancedeepseek

#42201 [Bugfix] Fix int32 overflow in DeepGEMM SiLU/mul FP8 Triton kernel

原始 PR · 作者 Flink-ddd · 合并时间 2026-05-12 02:52

缺陷修复重要性 5.91 洞察度 5.00

修复 DeepGEMM SiLU/mul FP8 内核 int32 溢出

建议精读该 PR，了解 Triton kernel 中 int32 溢出的典型模式及修复方式，可作为后续类似问题的参考。

bugfixperformancequantization

#41987 [Docs] Add Apple Silicon documentation for vLLM-Metal GPU support

原始 PR · 作者 alexagriffith · 合并时间 2026-05-12 02:34

文档重要性 3.70 洞察度 2.00

为 Apple Silicon 添加 vLLM-Metal GPU 文档

此 PR 是用户体验文档改进，值得了解以在文档中推广新平台。对于关注非 NVIDIA 平台支持的读者可精读；否则只作参考。

documentationfeature

#42190 Add documentation about vLLM FIPS compliance

原始 PR · 作者 vrdn-23 · 合并时间 2026-05-12 02:17

文档重要性 3.01 洞察度 2.00

添加 FIPS 合规文档说明

值得阅读该新增章节，尤其是需要在 FIPS 启用主机上部署 vLLM 的团队。文档结构清晰，配置说明具体，可快速参考。

documentationsecurityfips

#42202 [Model Runner V2] Fix `seq_lens_cpu_upper_bound`

原始 PR · 作者 njhill · 合并时间 2026-05-12 01:37

缺陷修复重要性 6.72 洞察度 5.00

修复 MTP 模式下 CPU mirror 的 computed tokens 发散问题

建议精读 `update_requests` 和 `is_prefilling` 的改动逻辑，理解 computed tokens 状态同步方式；可关注后续是否添加性能优化。

bugfixv1scheduler

#41812 [ROCm][DSv4] implement flash sparse mla with triton kernels

原始 PR · 作者 whx-sjtu · 合并时间 2026-05-12 00:27

功能重要性 9.00 洞察度 5.00

用 Triton 为 ROCm DeepSeekV4 稀疏 MLA 加速

该 PR 值得精读，尤其是新增的 Triton kernel 实现和 ROCm backend 集成方式。设计决策中，将 platform-specific 逻辑从 model layer 下沉到 backend 选择是良好的分离。但需关注 review 中提出的正确性风险是否在合并前解决。

rocmv1kernel

#40408 [Perf] Batch invariance with Cutlass fp8 support, 28.9% E2E latency improvement

原始 PR · 作者 yewentao256 · 合并时间 2026-05-12 00:20

性能优化重要性 7.17 洞察度 6.00

使用 Cutlass FP8 实现批量不变性，延迟降低 28.9%

该 PR 值得精读，尤其关注：1）如何通过固定 CUTLASS 配置实现 batch invariance 并保持正确性；2）FP8 线性层 `apply` 的分支设计兼顾性能与回退。对使用 FP8 批处理推理的团队有直接影响。

performancev1nvidia

2026-05-11

#42081 [Bug] Fix kimi dtype issue with `mm_projector_forward`

原始 PR · 作者 yewentao256 · 合并时间 2026-05-11 23:45

缺陷修复重要性 5.53 洞察度 3.00

修复 Kimi K2.6 mm_projector 输入 dtype 不匹配崩溃

建议精读该 PR，了解多模态模型中自定义 forward 函数与 batch invariance 交互时可能的 dtype 问题。设计上，从 projector 的权重 dtype 推断预期输入 dtype 是合理做法，但可考虑更通用的契约（如所有涉及预处理的函数都显式转换）。

bugfixmodelmulti-modality

第 94 / 270 页 · 共 2154 条

上一页 1 … 92 93 94 95 96 … 270 下一页