Prhub

#36700 [Misc] Added curl retries in install_python_libraries.sh

原始 PR 作者 dmitry-tokarev-nv 合并时间 2026-04-24 09:19 文件变更 1 提交数 3 评论 2 代码增减 +1 / -1

执行摘要

curl 下载添加重试机制提升脚本可靠性

修复 CI 中因 DNS 解析失败等瞬态问题导致的下载失败,如 PR body 所述 Could not resolve host: developer.download.nvidia.com,提升脚本可靠性。

简单但有效的可靠性改进,值得合入。可关注 CI 日志确认重试是否成功。

讨论亮点

review 中 gemini-code-assist[bot] 指出 --retry-all-errors 会掩盖 404 等永久错误,建议使用默认重试策略即可。作者确认后采纳,移除了 --retry-all-errors

实现拆解

tools/ep_kernels/install_python_libraries.sh 中,将 NVSHMEM 下载的 curl 命令由 curl -fSL ... 改为 curl -fSL --retry 3 --retry-delay 2 ...,共 2 行变更。首次尝试带 --retry-all-errors,经 review 后改为仅重试瞬态错误的默认行为。

文件 模块 状态 重要度
tools/ep_kernels/install_python_libraries.sh 构建脚本 modified 2.14

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

重试策略选择 style

gemini-code-assist[bot] 建议移除 --retry-all-errors,使用只重试瞬态错误的默认行为,避免掩盖 404 等永久错误。

结论:采纳建议,移除 --retry-all-errors 参数。 · 已解决

风险与影响

风险极低。仅修改一行脚本参数,且重试逻辑已广泛验证。若网络永久不可达,重试会将失败延迟约 6 秒(3 次 * 2 秒间隔),但可接受。

仅影响 CI 构建流程中 NVSHMEM 下载步骤,无用户可见功能变化。提高 CI 稳定性,减少因网络瞬态故障导致的构建失败。

网络故障延迟增加

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论