更新ROCm变体至7.2.1,调整CI/CD发布流水线配置。
该PR相对简单,涉及基础设施配置更新,建议关注版本一致性检查,确保Docker镜像与变体匹配。对于负责CI/CD的工程师值得一读,以了解版本升级流程。
A high-throughput and memory-efficient inference and serving engine for LLMs
更新ROCm变体至7.2.1,调整CI/CD发布流水线配置。
该PR相对简单,涉及基础设施配置更新,建议关注版本一致性检查,确保Docker镜像与变体匹配。对于负责CI/CD的工程师值得一读,以了解版本升级流程。
修复 Marlin GEMM 在 float16 时因溢出导致 NaN/Inf 的 bug。
建议技术管理者和工程师精读此 PR,关注动态缩放策略的设计权衡,以及如何在保持性能的同时处理数值溢出。特别留意 `marlin_template.h` 文件中的缩放逻辑修改和 Python 工具函数的 `a_dtype` 参数处理,这些是避免二次溢出的关键。同时,review 讨论中的性能与正确性权衡值得学习。
使用torch.compile融合trtllm MoE中pack topk操作,实现约2%速度提升。
该PR值得精读,特别是torch.compile在性能优化中的应用,以及dynamic参数的设计决策(从移除到重新添加的动态调整过程),对于理解编译优化策略和Moe层实现有重要参考价值。
原始 PR · 作者 lengrongfu · 合并时间 2026-03-28 07:28
为NVIDIA H800和H100设备添加fused MoE内核配置文件,支持fp8_w8a8精度。
对于关注GPU性能优化或使用NVIDIA H800/H100设备的工程师,建议快速浏览配置文件参数以了解优化细节,但无需深入分析代码逻辑。注意review中提到的配置潜在问题,可能在部署前需要验证。
原始 PR · 作者 hongxiayang · 合并时间 2026-03-28 07:20
更新 ROCm 安装和快速入门文档,添加 nightly Docker 镜像提示。
这是一个简单的文档更新,无需精读。可关注文档维护最佳实践,如避免重复内容,但无关键设计决策。
升级 ROCm Docker 镜像至 7.2.1,更新 PyTorch 和 Triton 版本,并添加 pytest 退出代码修复。
对于在 AMD GPU 上部署 vLLM 的团队,此 PR 值得关注以了解基础设施更新;建议精读 Dockerfile 变更,注意讨论中的设计决策(如 git 操作设计),并监控 CI 测试结果以确保稳定性。
原始 PR · 作者 johnnynunez · 合并时间 2026-03-28 06:26
修复 DGX Spark 设备的 SM121 架构匹配逻辑,确保 NVFP4 等内核正确编译。
该 PR 值得构建系统工程师精读,重点关注 `cuda_archs_loose_intersection` 函数的设计决策,如后缀匹配策略和跨版本兼容性处理。对于一般开发者,了解 CMake 架构守卫的更新模式即可。
原始 PR · 作者 TheEpicDolphin · 合并时间 2026-03-28 04:46
修复EAGLE spec decode中FULL cudagraph期间attention metadata未重建导致的draft tokens质量下降问题。
该PR值得精读,特别是关注attention metadata构建的正确性设计,以及cudagraph与spec decode的交互方式,适合技术管理者评估spec decode改进的潜在风险。
参与讨论