升级 CPU 端 PyTorch 系列依赖至 2.12
建议 CPU 平台开发者和依赖管理者阅读该 PR,了解版本升级细节和适配方式。对于仅关注 GPU 的读者,此 PR 无直接参考价值。设计决策方面,迁移 AMX 查询到公开 API 是良好的版本兼容实践。
标签列表
聚合结果
升级 CPU 端 PyTorch 系列依赖至 2.12
建议 CPU 平台开发者和依赖管理者阅读该 PR,了解版本升级细节和适配方式。对于仅关注 GPU 的读者,此 PR 无直接参考价值。设计决策方面,迁移 AMX 查询到公开 API 是良好的版本兼容实践。
升级 FlashInfer 到 0.6.12,CUTLASS DSL 到 4.5.2
建议合入,但需确认 CI 中无关失败不会影响后续主线。
升级 sgl-deep-gemm 依赖至 0.1.2
可快速合并,无需深入 review。
原始 PR · 作者 popsiclexu · 合并时间 2026-06-02 11:40
修复DeepGEMM runner中BF16 A2A和专家0遗漏
建议精读。该 PR 解决了实际运行中的关键问题,并展示了在 Triton kernel 中如何安全地提升数值精度(FP32 累积)。设计决策值得参考,尤其是条件量化路径的选择。如果团队在使用 DeepGEMM 运行时,建议尽快合并此 PR 并做回归验证。
精确锁定 compressed-tensors 版本修复 ROCm 构建
值得立即合入以恢复 ROCm 每日构建。后续可关注 ROCm 基础镜像更新,适时解除压缩。
原始 PR · 作者 alphabetc1 · 合并时间 2026-05-31 20:31
将 allocator.py 拆分为 allocator/ 子包
该 PR 是模块拆分的最佳实践,适合关注代码组织和重构策略的开发者学习。它展示了如何在不破坏现有 API 的情况下逐步重构,并保留 Git 历史。推荐精读以了解子包拆分和向后兼容的导入模式。
限制 kernels 依赖版本 <0.15
此 PR 是必要的紧急修复,暂不涉及架构性设计。值得在后续版本中关注上游修复进展,并及时移除版本锁定。
更改 sgl-deep-gemm 构建默认分支
可快速合并,无需额外审查。