← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

v1 · 469

bugfix · 335

performance · 190

refactor · 185

test · 176

feature · 133

quantization · 130

model · 129

ci · 118

rocm · 112

multi-modality · 73

documentation · 72

frontend · 70

cleanup · 63

kv-connector · 60

speculative-decoding · 46

qwen · 39

core · 38

nvidia · 38

kernel · 36

tool-calling · 36

xpu · 33

cpu · 32

attention · 28

cudagraph · 25

fp8 · 19

gpu · 19

moe · 18

torch.compile · 17

compilation · 15

pooling · 10

responses-api · 9

deepseek · 8

structured-output · 8

ci/build · 6

scheduler · 6

gpt-oss · 5

parser · 5

security · 4

infra · 3

metrics · 3

gemma4 · 2

jais · 2

lora · 2

mamba · 2

mistral · 2

gemma · 1

hybrid · 1

nixl · 1

observability · 1

pluggablelayer · 1

聚合结果

gpu 相关 PR

2026-03-31

#37221 [3/n] Migrate cutlass/scaled_mm_entry.cu torch stable ABI

作者 mikaylagawarecki · 合并时间 2026-03-31 02:20

重构重要性 7.00 洞察度 6.00

迁移CUTLASS量化GEMM和MoE内核到PyTorch稳定ABI，提升ABI兼容性。

refactor quantization gpu

此PR值得技术管理者和核心工程师精读，因为它展示了大规模稳定ABI迁移的具体策略，包括文件组织、类型替换和构建配置调整。重点关注设计决策：如何平衡代码简化与命名冲突、如何处理预存在的不一致问题。对于类似迁移项目，可借鉴其渐进式提交（先移动后迁移）和review中讨论的风险缓解方法。

查看完整分析 GitHub 原始 PR

#38562 [Bugfix][MLA] Change default SM100 MLA prefill backend back to TRT-LLM

作者 MatthewBonanni · 合并时间 2026-03-31 00:51

缺陷修复重要性 5.00 洞察度 4.00

修复 SM100 上 MLA prefill 默认后端错误，改回 TRT-LLM 以避免 Kimi-K2.5 输出问题。

bugfix model gpu

建议技术管理者关注此 PR，因为它揭示了 MLA prefill 后端选择的脆弱性和配置命名问题。工程师应阅读相关代码块（如作者链接的 mla_attention.py）以理解后端选择逻辑，并关注未来接口清理工作（如 PR #32623）。

查看完整分析 GitHub 原始 PR

2026-03-28

#31201 Add nvidia h800 moe config

作者 lengrongfu · 合并时间 2026-03-28 07:28

功能重要性 5.00 洞察度 3.00

为NVIDIA H800和H100设备添加fused MoE内核配置文件，支持fp8_w8a8精度。

feature performance gpu fp8

对于关注GPU性能优化或使用NVIDIA H800/H100设备的工程师，建议快速浏览配置文件参数以了解优化细节，但无需深入分析代码逻辑。注意review中提到的配置潜在问题，可能在部署前需要验证。

查看完整分析 GitHub 原始 PR

#38126 [NVIDIA] Fix DGX Spark logic

作者 johnnynunez · 合并时间 2026-03-28 06:26

缺陷修复重要性 6.00 洞察度 6.00

修复 DGX Spark 设备的 SM121 架构匹配逻辑，确保 NVFP4 等内核正确编译。

bugfix gpu test

该 PR 值得构建系统工程师精读，重点关注 `cuda_archs_loose_intersection` 函数的设计决策，如后缀匹配策略和跨版本兼容性处理。对于一般开发者，了解 CMake 架构守卫的更新模式即可。

查看完整分析 GitHub 原始 PR

2026-03-26

#38014 [CI] Add batch invariant test for b200

作者 yewentao256 · 合并时间 2026-03-26 23:54

基础设施重要性 3.00 洞察度 3.00

在 CI 中为 b200 设备添加批不变性测试步骤。

ci test gpu

对于 CI 维护工程师，建议后续优化测试命令以避免冗余；对于其他工程师，此 PR 无需精读，除非涉及 CI 配置更改或批不变性测试。

查看完整分析 GitHub 原始 PR

#34549 [Misc] Optimized check to encapsulate both CUDA and ROCm platforms

作者 AndreasKaratzas · 合并时间 2026-03-26 09:43

重构重要性 3.00 洞察度 3.00

使用 `is_cuda_alike()` 辅助方法统一检查 CUDA 和 ROCm 平台，提升代码可维护性。

refactor rocm gpu

建议快速浏览此 PR 以了解代码重构模式，但需注意 gemini-code-assist[bot] 提出的正确性建议，这可能揭示潜在的 UVA 内存安全问题，值得在后续代码审查中关注。

查看完整分析 GitHub 原始 PR

2026-03-25

#37970 [Kernel] Optimize SM120 CUTLASS blockwise FP8 GEMM

作者 Nekofish-L · 合并时间 2026-03-25 23:20

性能优化重要性 6.00 洞察度 5.00

优化SM120 GPU上FP8 GEMM分块调度，提升解码性能。

performance quantization fp8 gpu

建议工程师精读此PR，特别是对CUDA kernel优化、CUTLASS调度和量化性能提升感兴趣的开发者。关注基于问题大小动态分派kernel的设计决策，以及性能测试的方法和结果。

查看完整分析 GitHub 原始 PR

#37725 [Bugfix] Preserve CUDA arch suffix (a/f) for SM12x — fixes NVFP4 NaN on desktop Blackwell

作者 RobTand · 合并时间 2026-03-25 23:18

缺陷修复重要性 6.00 洞察度 5.00

修复CMake构建中丢失CUDA架构后缀的bug，避免SM12x设备上NVFP4推理产生NaN。

bugfix gpu

此PR值得精读，特别是对于负责构建系统和CUDA编译优化的工程师。关注点包括：正则表达式的修改如何保留后缀、架构检测的逻辑演变，以及从后续问题中学到的跨文件协调教训。建议结合PR 38126一起阅读，以理解完整的修复链条，并关注构建系统在其他PR中的演进。

查看完整分析 GitHub 原始 PR

第 1 / 3 页 · 共 19 条

1 2 3 下一页