Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-01 08:22 同步状态:空闲 下次计划:2026-06-01 09:22

PR 列表

更多筛选
2026-03-28
基础设施 重要性 4.00 洞察度 3.00

更新ROCm变体至7.2.1,调整CI/CD发布流水线配置。

该PR相对简单,涉及基础设施配置更新,建议关注版本一致性检查,确保Docker镜像与变体匹配。对于负责CI/CD的工程师值得一读,以了解版本升级流程。

缺陷修复 重要性 6.00 洞察度 6.00

修复 Marlin GEMM 在 float16 时因溢出导致 NaN/Inf 的 bug。

建议技术管理者和工程师精读此 PR,关注动态缩放策略的设计权衡,以及如何在保持性能的同时处理数值溢出。特别留意 `marlin_template.h` 文件中的缩放逻辑修改和 Python 工具函数的 `a_dtype` 参数处理,这些是避免二次溢出的关键。同时,review 讨论中的性能与正确性权衡值得学习。

性能优化 重要性 6.00 洞察度 6.00

使用torch.compile融合trtllm MoE中pack topk操作,实现约2%速度提升。

该PR值得精读,特别是torch.compile在性能优化中的应用,以及dynamic参数的设计决策(从移除到重新添加的动态调整过程),对于理解编译优化策略和Moe层实现有重要参考价值。

#31201 Add nvidia h800 moe config

原始 PR · 作者 lengrongfu · 合并时间 2026-03-28 07:28

功能 重要性 5.00 洞察度 3.00

为NVIDIA H800和H100设备添加fused MoE内核配置文件,支持fp8_w8a8精度。

对于关注GPU性能优化或使用NVIDIA H800/H100设备的工程师,建议快速浏览配置文件参数以了解优化细节,但无需深入分析代码逻辑。注意review中提到的配置潜在问题,可能在部署前需要验证。

基础设施 重要性 5.00 洞察度 3.00

升级 ROCm Docker 镜像至 7.2.1,更新 PyTorch 和 Triton 版本,并添加 pytest 退出代码修复。

对于在 AMD GPU 上部署 vLLM 的团队,此 PR 值得关注以了解基础设施更新;建议精读 Dockerfile 变更,注意讨论中的设计决策(如 git 操作设计),并监控 CI 测试结果以确保稳定性。

#38126 [NVIDIA] Fix DGX Spark logic

原始 PR · 作者 johnnynunez · 合并时间 2026-03-28 06:26

缺陷修复 重要性 6.00 洞察度 6.00

修复 DGX Spark 设备的 SM121 架构匹配逻辑,确保 NVFP4 等内核正确编译。

该 PR 值得构建系统工程师精读,重点关注 `cuda_archs_loose_intersection` 函数的设计决策,如后缀匹配策略和跨版本兼容性处理。对于一般开发者,了解 CMake 架构守卫的更新模式即可。

缺陷修复 重要性 6.00 洞察度 5.00

修复EAGLE spec decode中FULL cudagraph期间attention metadata未重建导致的draft tokens质量下降问题。

该PR值得精读,特别是关注attention metadata构建的正确性设计,以及cudagraph与spec decode的交互方式,适合技术管理者评估spec decode改进的潜在风险。

参与讨论