执行摘要
更新 ROCm 平台 DeepEP 版本并调整 CI 测试配置,修复 gfx942/gfx950 编译问题。
根据PR描述和Issue评论,此PR的目的是更新DeepEP分支到一个能正确为gfx942和gfx950架构进行提前编译的版本,以部分解决issue #37709。作者在评论中解释,当前ROCm DeepEP仅支持gfx942和gfx950架构(引用自DeepEP仓库的setup.py),而更新版本后,DeepEP会在链接时将适当的内核打包到其二进制文件中。此外,由于CI环境中目前没有MI355代理,需要将测试用例迁移到MI325节点来验证变更。
此PR主要涉及基础设施更新,对于关注ROCm平台或CI/CD流程的工程师值得浏览,特别是Dockerfile中构建参数的用法和CI测试迁移的决策。对于核心模型推理或性能优化工程师,优先级较低。
review中主要有两个讨论点:
- GPU架构硬编码问题:gemini-code-assist[bot]指出
GPU_TARGETS被硬编码,但引入了DEEPEP_ROCM_ARCH构建参数,建议使用该参数以提高可配置性。作者在实现中已采纳此建议,通过-DGPU_TARGETS="${DEEPEP_ROCM_ARCH}"传递参数。 - 架构支持范围:gshtras询问测试是否不应在250s(可能指gfx250架构)上运行,作者回复澄清ROCm DeepEP目前仅支持gfx942和gfx950,并提供了DeepEP仓库的代码链接作为证据。
整体讨论较少,tjtanaa在确认修复链接和预期状态后批准了PR。
参与讨论