Prhub

#25938 [Revert] nvidia-cutlass-dsl[cu13] 4.5.1 -> 4.5.0

原始 PR 作者 Kangyan-Zhou 合并时间 2026-05-21 14:36 文件变更 1 提交数 2 评论 4 代码增减 +1 / -1

执行摘要

回退 cutlass-dsl 版本至 4.5.0

nvidia-cutlass-dsl[cu13] 的 cu13 extra 在 PyPI 上会同时安装 -libs-base-libs-cu13,两者写入相同路径但内容不同,导致 Blackwell 上缺少 sm_110 架构别名(GPUModuleOp TypeError)以及非 Blackwell 的 H100 上 LoRA CUDA 图录制出现 CUDBG_EXCEPTION_WARP_ILLEGAL_ADDRESS 回归(关联 Issue #25743)。之前 #25576 版本升级到 4.5.1 未能解决此问题,因此本 PR 回退依赖以暂时解除阻塞。

该 PR 是紧急回退,用于解阻塞 CI 和用户部署,值得快速合并。但需要立即跟进根本修复(如 PR body 中提出的 fix_cutlass_dsl_libs() 函数方案),在 main() 中根据 GPU 家族执行不同的 libs 清理逻辑。建议精读 PR body 中的问题分析和后续修复方向。

讨论亮点

reviewer mmangkad 指出应强制重新安装 nvidia-cutlass-dsl-libs-cu13 到最后以保证顺序正确,否则仍可能出现问题。PR 作者 Kangyan-Zhou 表示先回退再尝试其他建议,并承认该错误令人困惑。

实现拆解

  1. 修改 python/pyproject.toml 中第 41 行依赖声明,将 "nvidia-cutlass-dsl[cu13]==4.5.1" 改回 "nvidia-cutlass-dsl[cu13]==4.5.0"
  2. 无其他文件、源码逻辑或测试配套变更。
文件 模块 状态 重要度
python/pyproject.toml 依赖管理 modified 3.7

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

强制重新安装 libs-cu13 的建议 question

reviewer mmangkad 建议强制重新安装 `nvidia-cutlass-dsl-libs-cu13` 到最后,否则可能仍有问题。

结论:PR 作者决定先回退再尝试该建议。 · closed

风险与影响

回退到 4.5.0 后,Blackwell 上因 -libs-cu13 缺失 sm_110 别名仍可能触发 GPUModuleOp TypeError(与 #25690 的原始原因相同);H100 LoRA 回归暂时解除,但根本的文件冲突问题未解决。CI 中已有 GPU 测试(base-b-test--gpu-large, base-b-test--gpu-b200)可以验证这两类风险。

影响范围有限:仅涉及 pyproject.toml 中一个依赖版本号变更。对用户无直接功能影响,但 Blackwell 用户如果遇到 cutlass-dsl 相关问题,需要等待后续的完整修复。

依赖冲突 已知回归

关联 Issue

#25743 Revert #25690 to unblock LoRA Qwen3-8B CUDA graph capture on main
#40082 Integrate flashinfer b12x MoE and FP4 GEMM kernels for SM120/121

完整报告

参与讨论