# PR #5523 完整报告

- 仓库：`verl-project/verl`
- 标题：[ci] chore: update npu ci to vllm013
- 合并时间：2026-03-12 10:00
- 原文链接：http://prhub.com.cn/verl-project/verl/pull/5523

---

# 执行摘要
本 PR 将 NPU CI 环境升级到 vLLM 0.13.0，并更新 CANN 版本为 8.5.0，通过修改多个 GitHub Actions 工作流、重命名 Dockerfile 和调整文档，确保 CI 流水线稳定运行。这是一个常规维护变更，影响范围限于 CI 基础设施，风险可控但需关注配置一致性。

# 功能与动机
动机是升级 NPU CI 以支持 vLLM 0.13.0，同时将 CANN 从 8.5.RC1 升级到 8.5.0 以保持环境兼容性。PR body 中简略提及“update npu ci to vllm013”，review 评论中暗示需要适配新版本 vLLM，以修复潜在兼容问题并提升测试可靠性。

# 实现拆解
实现主要分为三个层面：
- **CI 工作流更新**：修改了 8 个 .yml 文件（如 `.github/workflows/e2e_ascend.yml`），将容器镜像标签从 `verl-8.3.rc1-910b` 更新为 `verl-8.5.0-910b`，并优化测试步骤，例如在 `npu_unit_tests.yml` 中添加激活卸载测试。
- **Dockerfile 重命名**：将 `docker/ascend/Dockerfile.ascend_8.5.rc1_a2/a3` 重命名为 `docker/ascend/Dockerfile.ascend_8.5.0_a2/a3`，以匹配 CANN 版本。
- **文档与脚本调整**：更新了 ascend 教程文档（如 `docs/ascend_tutorial/ascend_quick_start.rst`）中的版本号，并修改测试脚本（如 `run_grpo_qwen25-vl-3b-instruct_fsdp_npu.sh`）移除冗余配置。

# 评论区精华
review 讨论中，关键交锋点包括：
1. **Dockerfile 链接一致性**：gemini-code-assist[bot] 指出文档链接已更新但 Dockerfile 未重命名，将导致链接失效。作者在后续提交中通过重命名解决此问题。
2. **配置行删除**：wucong25 询问为什么删除 `export PYTHONPATH=$PYTHONPATH:/Megatron-LM` 和 `disable_mm_preprocessor_cache=True` 行，但未得到明确解释，可能属于优化调整。

> gemini-code-assist[bot]：“文档中的链接已更新为指向 `..._8.5.0_...` 版本，但 `docker/ascend/Dockerfile.ascend_8.5.rc1_a2` 和 `docker/ascend/Dockerfile.ascend_8.5.rc1_a3` 文件本身并未在此 PR 中重命名。这将导致链接失效。”

# 风险与影响
- **技术风险**：CI 配置错误（如镜像标签错误）可能导致测试失败；文档与代码不一致可能误导用户；CANN 8.5.0 新行为可能引入未覆盖的兼容性问题。
- **影响范围**：对用户无直接 API 变更，但 CI 稳定性影响团队开发效率；系统层面升级 NPU 测试环境，提升 vLLM 0.13.0 支持；团队需同步本地环境以避免冲突。

# 关联脉络
与近期历史 PR 关联：
- **PR #5724**：升级 transformers 和 vLLM 版本，同样涉及 CI 环境更新，显示团队持续维护依赖兼容性。
- **PR #5856**：优化 TRT-LLM CI 测试时间，与本 PR 的 CI 配置调整一脉相承，反映 CI 流水线的持续改进趋势。
这些 PR 共同指向 VERL 仓库在 NPU 和 CI 领域的演进方向：通过版本升级和测试优化，提升大规模强化学习训练的稳定性和效率。