#41261 [Compile] Fix compile warning with topk softplus sqrt
原始 PR · 作者 yewentao256 · 合并时间 2026-05-14 20:12
修复 MoE topk_softplus_sqrt CUDA 核函数编译警告
建议合并,该 PR 以最小修改消除编译警告,提升代码质量。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 yewentao256 · 合并时间 2026-05-14 20:12
修复 MoE topk_softplus_sqrt CUDA 核函数编译警告
建议合并,该 PR 以最小修改消除编译警告,提升代码质量。
DSV4 融合 RMSNorm 与路由器 GEMV 核
值得精读,尤其是融合核绕过 normed_x 全局内存的数学技巧、运行时分发策略以及 `PluggableLayer` 的使用。对于关注 CUDA 性能优化的工程师有较高参考价值。
原始 PR · 作者 Zhenzhong1 · 合并时间 2026-05-14 19:18
通过 AutoRound Toolkit 为 Intel XPU/CPU 添加 W4A16 线性层量化
此 PR 值得所有 Intel 平台部署者和量化框架开发者关注。设计上基类提取和优先级调度策略具有参考价值,第三方依赖的分阶段集成策略也为大型项目提供了借鉴。建议精读 `inc.py` 中的调度逻辑和 `create_weights` 重构。
修复 XPU W8A8 量化权重双重转置问题
该 PR 已充分 review 并得到 3 位 reviewer 的 approval,逻辑清晰且测试覆盖完整,建议合并。值得精读 `process_weights_after_loading` 的最终实现,理解如何处理不同量化路径的权重布局差异。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-14 17:00
修复 DeepSeek V4 因 cutlass 版本 API 变动导致的崩溃
可快速合并,无必要精读。注意跟进 @ZJY0516 在 #42438 中的改动,确保版本管理一致性。
修复 ROCm 上 Triton MoE 因 scale 为 None 的编译错误
建议阅读此 PR,展示了一种在条件分支中 fallback 的安全修复方式,避免在调用链上游做更大改动。
跳过 ROCm 上已知有问题的多模态测试
值得合入以保持 CI 稳定性。PR 本身是临时缓解措施,建议跟踪关联 issue 并在上游模型修复后移除这些跳过标记。
为 ROCm 镜像添加 AINIC 和 Thor-2 NIC 驱动支持
该 PR 是基础设施增强而非功能性变更,对 ROCm 多节点用户至关重要。值得关注的设计决策包括:默认安装所有 NIC 以减少认知负担(类似 SGLang 做法)、提供 none 选项兼容不使用 MoRI 的场景、以及明确的版本参数化。对于需要构建定制 ROCm 镜像的团队,此 PR 提供了可复用的模式。建议阅读 Dockerfile 中的函数封装和 case 分支,理解如何在 Docker 构建中灵活管理多方驱动。
参与讨论