Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 08:22 同步状态：空闲下次计划：2026-06-01 09:22

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-28

#38413 [ROCm] [Release] Update ROCm variant from rocm700 to rocm721

原始 PR · 作者 tjtanaa · 合并时间 2026-03-28 14:07

基础设施重要性 4.00 洞察度 3.00

更新ROCm变体至7.2.1，调整CI/CD发布流水线配置。

该PR相对简单，涉及基础设施配置更新，建议关注版本一致性检查，确保Docker镜像与变体匹配。对于负责CI/CD的工程师值得一读，以了解版本升级流程。

rocmcicleanup

#33972 [Bugfix]fix output Nan/Inf in marlin if dtype=float16

原始 PR · 作者 ir1ka · 合并时间 2026-03-28 07:36

缺陷修复重要性 6.00 洞察度 6.00

修复 Marlin GEMM 在 float16 时因溢出导致 NaN/Inf 的 bug。

建议技术管理者和工程师精读此 PR，关注动态缩放策略的设计权衡，以及如何在保持性能的同时处理数值溢出。特别留意 `marlin_template.h` 文件中的缩放逻辑修改和 Python 工具函数的 `a_dtype` 参数处理，这些是避免二次溢出的关键。同时，review 讨论中的性能与正确性权衡值得学习。

bugfixquantizationperformance

#37695 [Perf] Use torch compile to fuse pack topk in trtllm moe

原始 PR · 作者 wzhao18 · 合并时间 2026-03-28 07:30

性能优化重要性 6.00 洞察度 6.00

使用torch.compile融合trtllm MoE中pack topk操作，实现约2%速度提升。

该PR值得精读，特别是torch.compile在性能优化中的应用，以及dynamic参数的设计决策（从移除到重新添加的动态调整过程），对于理解编译优化策略和Moe层实现有重要参考价值。

performancetorch.compilerefactor

#31201 Add nvidia h800 moe config

原始 PR · 作者 lengrongfu · 合并时间 2026-03-28 07:28

功能重要性 5.00 洞察度 3.00

为NVIDIA H800和H100设备添加fused MoE内核配置文件，支持fp8_w8a8精度。

对于关注GPU性能优化或使用NVIDIA H800/H100设备的工程师，建议快速浏览配置文件参数以了解优化细节，但无需深入分析代码逻辑。注意review中提到的配置潜在问题，可能在部署前需要验证。

featureperformancefp8

#38367 [ROCm][Documentation] update quickstart and installation to include rocm nightly docker tips

原始 PR · 作者 hongxiayang · 合并时间 2026-03-28 07:20

文档重要性 3.00 洞察度 2.00

更新 ROCm 安装和快速入门文档，添加 nightly Docker 镜像提示。

这是一个简单的文档更新，无需精读。可关注文档维护最佳实践，如避免重复内容，但无关键设计决策。

documentationrocmcleanup

#38252 [ROCm][CI/Build] ROCm 7.2.1 release version; torch 2.10; triton 3.6

原始 PR · 作者 gshtras · 合并时间 2026-03-28 07:03

基础设施重要性 5.00 洞察度 3.00

升级 ROCm Docker 镜像至 7.2.1，更新 PyTorch 和 Triton 版本，并添加 pytest 退出代码修复。

对于在 AMD GPU 上部署 vLLM 的团队，此 PR 值得关注以了解基础设施更新；建议精读 Dockerfile 变更，注意讨论中的设计决策（如 git 操作设计），并监控 CI 测试结果以确保稳定性。

rocmci

#38126 [NVIDIA] Fix DGX Spark logic

原始 PR · 作者 johnnynunez · 合并时间 2026-03-28 06:26

缺陷修复重要性 6.00 洞察度 6.00

修复 DGX Spark 设备的 SM121 架构匹配逻辑，确保 NVFP4 等内核正确编译。

该 PR 值得构建系统工程师精读，重点关注 `cuda_archs_loose_intersection` 函数的设计决策，如后缀匹配策略和跨版本兼容性处理。对于一般开发者，了解 CMake 架构守卫的更新模式即可。

bugfixtest

#38311 [Model Runner V2] Rebuild attention metadata before eagle decode full…

原始 PR · 作者 TheEpicDolphin · 合并时间 2026-03-28 04:46

缺陷修复重要性 6.00 洞察度 5.00

修复EAGLE spec decode中FULL cudagraph期间attention metadata未重建导致的draft tokens质量下降问题。

该PR值得精读，特别是关注attention metadata构建的正确性设计，以及cudagraph与spec decode的交互方式，适合技术管理者评估spec decode改进的潜在风险。

bugfixspeculative-decodingcudagraph

第 226 / 253 页 · 共 2021 条

上一页 1 … 224 225 226 227 228 … 253 下一页