← 返回仓库详情

#5791 [ci] fix: resolve oom when allocating weight transfer buffer in fully async test cases

verl-project/verl · 作者 0lynnlin0 · 合并时间 2026-03-29 01:26

分析状态已生成

文件变更 1提交数 1 · 评论 0

代码增减 +5 / -11

ci megatron misc

执行摘要

修复 fully async 测试中 Megatron 策略的 OOM 问题，通过标准化配置参数。

PR标题明确指出要解决fully async测试用例中分配权重传输缓冲区时的OOM问题，旨在优化内存使用并防止测试失败。body中仅说明'as title'，因此动机直接来自问题描述。

该PR变更较小且逻辑直白，不建议深入精读，除非您直接负责CI测试或fully async策略的配置优化。可关注配置标准化的设计决策，以避免硬件特定的条件分支，促进代码一致性。

讨论亮点

Review讨论中仅有一个机器人评论（gemini-code-assist[bot]）总结了变更，指出移除了NPU特定条件块并标准化了配置，但未提供实质性反馈。批准者ji-huazhong没有额外评论，表明变更被直接接受，无争议或深入讨论。

实现拆解

实现变更集中在单个文件tests/special_e2e/run_fully_async_policy.sh。关键改动包括：1) 将train_tp从1改为2，增加训练并行度；2) 启用actor_offload（从False改为True），允许actor模型卸载以节省内存；3) 移除对设备名为'npu'的条件检查，统一应用actor_rollout_ref.rollout.gpu_memory_utilization=0.60参数，简化配置逻辑。

文件	模块	状态	重要度
`tests/special_e2e/run_fully_async_policy.sh`	ci	modified	5.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

变更总结与批准 other

gemini-code-assist[bot] 评论总结了 PR 修改：移除了 NPU 特定条件块，标准化了 Megatron 策略配置，但无实质性反馈。ji-huazhong 直接批准。

结论：变更被接受，无争议或进一步讨论。 · 已解决

风险与影响

主要技术风险：1) 配置变更可能对非NPU设备产生未预期的内存或性能影响，因为移除了条件分支，统一应用了原本为NPU设计的参数（如train_tp=2和actor_offload=True）；2) 变更缺少测试覆盖，仅修改了shell脚本，未添加单元测试来验证新配置在多种硬件环境下的有效性；3) gpu_memory_utilization=0.60的设置可能在其他设备上导致性能下降或新的OOM问题，如果内存利用率过高。

影响范围：主要针对CI测试中的fully async策略测试用例，影响程度为中等。正面影响：优化内存管理，减少OOM导致的测试失败，提高测试稳定性和可靠性；负面影响：可能引入配置不兼容性，需在非NPU设备上验证参数适配性。对系统：仅影响测试脚本，对生产环境无直接影响。对团队：简化配置维护，促进代码一致性，但需注意硬件适配性。

配置变更风险缺少测试覆盖硬件适配不确定性

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：修复fully async测试中Megatron策略的OOM问题，通过标准化配置参数。
推荐动作：该PR变更较小且逻辑直白，不建议深入精读，除非您直接负责CI测试或fully async策略的配置优化。可关注配置标准化的设计决策，以避免硬件特定的条件分支，促进代码一致性。

功能与动机

实现拆解

关键文件：

tests/special_e2e/run_fully_async_policy.sh（模块 ci）: 这是唯一变更的文件，直接修改了fully async测试中Megatron策略的配置，通过调整参数解决了OOM问题，是PR的核心实现。

关键符号：未识别

评论区精华

变更总结与批准 (other): 变更被接受，无争议或进一步讨论。

风险与影响

风险：主要技术风险：1) 配置变更可能对非NPU设备产生未预期的内存或性能影响，因为移除了条件分支，统一应用了原本为NPU设计的参数（如train_tp=2和actor_offload=True）；2) 变更缺少测试覆盖，仅修改了shell脚本，未添加单元测试来验证新配置在多种硬件环境下的有效性；3) gpu_memory_utilization=0.60的设置可能在其他设备上导致性能下降或新的OOM问题，如果内存利用率过高。
影响：影响范围：主要针对CI测试中的fully async策略测试用例，影响程度为中等。正面影响：优化内存管理，减少OOM导致的测试失败，提高测试稳定性和可靠性；负面影响：可能引入配置不兼容性，需在非NPU设备上验证参数适配性。对系统：仅影响测试脚本，对生产环境无直接影响。对团队：简化配置维护，促进代码一致性，但需注意硬件适配性。
风险标记：配置变更风险, 缺少测试覆盖, 硬件适配不确定性

关联脉络

PR #5734 [ci] chore: add npu nightly ci for dapo-moonlight-16b-megatron and modify log path: 涉及NPU CI配置优化，与本PR移除NPU特定条件分支相关，共同关注CI测试的硬件适配性。
PR #5758 [ci] chore: delete mirror for npu ci: 同样涉及NPU CI的简化配置，与本PR标准化配置逻辑有共同主题，反映CI维护趋势。

支持 Prhub ♥

#5791 [ci] fix: resolve oom when allocating weight transfer buffer in fully async test cases

执行摘要

修复 fully async 测试中 Megatron 策略的 OOM 问题，通过标准化配置参数。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论