# PR #5908 完整报告

- 仓库：`verl-project/verl`
- 标题：[doc] chore: Bug fixes for the qwen3-235b model in 256k scenarios
- 合并时间：2026-04-08 14:40
- 原文链接：http://prhub.com.cn/verl-project/verl/pull/5908

---

## 执行摘要
该 PR 修复了 Qwen3-235B 模型在 256K 长序列训练场景下的配置错误，主要调整了训练脚本中的模型权重路径、数据集、Megatron 并行配置和优化器超参数。然而，review 中指出的专家并行大小超过数据并行大小的关键问题未明确解决，可能导致训练初始化失败，建议用户谨慎使用。

## 功能与动机
根据 PR 标题“Bug fixes for the qwen3-235b model in 256k scenarios”，该 PR 旨在修复 Qwen3-235B 模型在 256K 长序列场景下的配置问题。具体动机未在 PR body 中说明，但从修改内容推断是为了解决大规模训练时的配置错误，确保训练脚本能够正常运行。

## 实现拆解
主要修改集中在两个文件：
1. **训练脚本 **`examples/grpo_trainer/run_qwen3_235b_256k_megatron_npu.sh`：
 - 模型权重：从 `Qwen3-235B-A22B-Thinking-2507` 改为 `Qwen3-235B-A22B-Instruct-2507`
 - 数据集：从 `dapo-math-17k.parquet` 改为 `gsm8k/train.parquet` 和 `gsm8k/test.parquet`
 - Megatron 并行配置：
     ```bash
     train_tp=2      # 原为4
     train_ep=16     # 原为32
     train_pp=16     # 原为8
     ```
 - 流水线层配置：`first_layer=5` 和 `last_layer=5`（原为 11）
 - 优化器超参数：新增 `clip_grad=1.0`、`lr_warmup_steps=10`、`weight_decay=0.1`
 - vLLM 配置：新增 `max_num_seqs=16`
2. **配置文件 **`verl/trainer/config/_generated_diffusion_trainer.yaml`：
 - 在 `actor_rollout_ref` 配置中添加 `custom_backend_module: null` 字段

## 评论区精华
review 中仅有一次实质性讨论：
> gemini-code-assist[bot]: "The `train_ep` (expert model parallel size) is set to 16, which exceeds the Data Parallel (DP) size of 8 calculated from the default node configuration... In Megatron-Core, the expert parallel size must be a divisor of (and thus less than or equal to) the data parallel size... Setting `train_ep=16` when the available DP size is 8 will cause initialization failure."

该评论详细解释了并行度计算逻辑（总 NPU=256，模型并行度 =32，数据并行度 =8），并指出配置错误。但后续无回复确认是否修复，PR 即被批准合并。

## 风险与影响
- **并行配置风险**：修改后 `train_ep=16` 仍可能超过数据并行大小 `DP=8`，导致训练初始化失败。
- **模型兼容性风险**：从 Base 模型改为 Instruct 模型可能影响训练效果。
- **超参数风险**：新增的优化器超参数未经充分验证。
- **影响范围**：主要影响使用该特定脚本进行 Qwen3-235B 256K 训练的用户，配置错误可能导致训练无法启动。

## 关联脉络
- 与 PR#5874（新增 Qwen3.5-122B Megatron 启动脚本）类似，同为大规模模型训练配置示例。
- 与 PR#5680（新增 MindSpeed-LLM NPU 支持）相关，均涉及 NPU 平台训练脚本修改。
- 近期多个 PR（如 #5884、#5885、#5870）涉及 Megatron 和配置修复，显示团队正持续优化大规模训练配置。