#31201 Add nvidia h800 moe config
作者 lengrongfu · 合并时间 2026-03-28 07:28
为NVIDIA H800和H100设备添加fused MoE内核配置文件,支持fp8_w8a8精度。
对于关注GPU性能优化或使用NVIDIA H800/H100设备的工程师,建议快速浏览配置文件参数以了解优化细节,但无需深入分析代码逻辑。注意review中提到的配置潜在问题,可能在部署前需要验证。
A high-throughput and memory-efficient inference and serving engine for LLMs
作者 lengrongfu · 合并时间 2026-03-28 07:28
为NVIDIA H800和H100设备添加fused MoE内核配置文件,支持fp8_w8a8精度。
对于关注GPU性能优化或使用NVIDIA H800/H100设备的工程师,建议快速浏览配置文件参数以了解优化细节,但无需深入分析代码逻辑。注意review中提到的配置潜在问题,可能在部署前需要验证。
作者 hongxiayang · 合并时间 2026-03-28 07:20
更新 ROCm 安装和快速入门文档,添加 nightly Docker 镜像提示。
这是一个简单的文档更新,无需精读。可关注文档维护最佳实践,如避免重复内容,但无关键设计决策。
作者 gshtras · 合并时间 2026-03-28 07:03
升级 ROCm Docker 镜像至 7.2.1,更新 PyTorch 和 Triton 版本,并添加 pytest 退出代码修复。
对于在 AMD GPU 上部署 vLLM 的团队,此 PR 值得关注以了解基础设施更新;建议精读 Dockerfile 变更,注意讨论中的设计决策(如 git 操作设计),并监控 CI 测试结果以确保稳定性。
作者 johnnynunez · 合并时间 2026-03-28 06:26
修复 DGX Spark 设备的 SM121 架构匹配逻辑,确保 NVFP4 等内核正确编译。
该 PR 值得构建系统工程师精读,重点关注 `cuda_archs_loose_intersection` 函数的设计决策,如后缀匹配策略和跨版本兼容性处理。对于一般开发者,了解 CMake 架构守卫的更新模式即可。
作者 TheEpicDolphin · 合并时间 2026-03-28 04:46
修复EAGLE spec decode中FULL cudagraph期间attention metadata未重建导致的draft tokens质量下降问题。
该PR值得精读,特别是关注attention metadata构建的正确性设计,以及cudagraph与spec decode的交互方式,适合技术管理者评估spec decode改进的潜在风险。
作者 NickLucche · 合并时间 2026-03-28 04:25
在registry中为Ernie模型指定revision以跳过CI失败测试。
该PR不值得精读,除非您关注CI测试策略或多模态模型集成。变更简单,设计决策较少,但需注意测试跳过的长期影响和潜在风险。
作者 kylesayrs · 合并时间 2026-03-28 04:22
重构在线量化逻辑以支持与量化重新加载协同工作,提升代码复用。
该 PR 值得精读,特别是关注 `initialize_online_processing` 如何抽象化在线量化和重新加载的共享逻辑,展示了模块化设计的好处。建议工程师学习其代码重构技巧,并注意 review 中关于正确性和测试覆盖的讨论,以应用到类似场景。
作者 mgoin · 合并时间 2026-03-28 03:04
为--speculative-config参数添加短标志-sc,提升CLI可用性。
该PR变更简单,值得快速阅读以了解vLLM项目中CLI参数添加短标志的标准做法。对于工程师,可关注review中提到的测试覆盖问题,考虑在后续维护中补充测试;对于管理者,可将其视为低风险改进,无需深入审查。
参与讨论