#1797 pass critic role through to create RayTrainGroup

THUDM/slime · 作者 znculee · 合并时间 2026-04-03 09:11

分析状态已生成

文件变更 1提交数 2 · 评论 0

代码增减 +3 / -1

bugfix configuration

执行摘要

修复创建 critic 训练组时未正确传递 role 参数的问题。

根据PR body中引用的代码注释（https://github.com/THUDM/slime/blob/5d7ca976039e738ebc2ed003a6f9312b00820810/slime/ray/actor_group.py#L75-L77），创建critic的RayTrainGroup时使用actor角色不符合预期。PR作者znculee发现此问题并提交修复。

该PR变更简单直接，无需深入精读。值得关注的是修复依据来自代码注释，体现了对代码预期的遵循。对于理解slime中actor/critic角色分配机制有帮助。

讨论亮点

无review评论，PR直接由zhuzilin合并。从提交历史看，作者先提交修复commit，然后合并main分支更新，表明这是基于最新代码的简单修复。

实现拆解

修改slime/ray/placement_group.py文件中的allocate_train_group函数：1. 增加role参数，默认值为"actor"；2. 在函数调用时将role参数传递给RayTrainGroup构造函数；3. 在create_training_models函数中创建critic训练组时，显式传递role="critic"。

文件	模块	状态	重要度
`slime/ray/placement_group.py`	ray	modified	5.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

allocate_train_group create_training_models

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

风险较低：1. 变更范围小，仅修改一个函数签名和两处调用；2. 向后兼容，新增参数有默认值，不影响现有调用；3. 逻辑简单，只是传递参数，不涉及复杂业务逻辑。潜在风险：如果其他代码调用allocate_train_group时未考虑role参数，可能仍使用默认"actor"值，但这是原有行为，不会引入新问题。

影响范围有限：1. 对用户无直接影响，这是内部训练逻辑修复；2. 对系统影响小，确保critic训练组正确使用"critic"角色，可能影响训练行为但修复了原有错误；3. 对团队影响小，代码变更简单易懂。

低风险变更

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此PR修复了创建critic训练组时未正确传递role参数的问题，通过修改allocate_train_group函数增加role参数并显式传递"critic"值，确保角色分配符合代码注释预期。变更范围小、风险低，属于常规维护性修复。

功能与动机

根据PR body引用的代码注释（slime/ray/actor_group.py第75-77行），创建critic的RayTrainGroup时使用actor角色不符合预期。作者znculee发现此不一致问题并提交修复，确保critic训练组正确使用"critic"角色。

实现拆解

修改slime/ray/placement_group.py文件：

allocate_train_group函数：增加role参数，默认值为"actor"，并将参数传递给RayTrainGroup构造函数。
python def allocate_train_group(args, num_nodes, num_gpus_per_node, pg, role="actor"): return RayTrainGroup( args=args, num_nodes=num_nodes, num_gpus_per_node=num_gpus_per_node, pg=pg, num_gpus_per_actor=0.4, role=role, # 新增参数传递 )
create_training_models函数：在创建critic训练组时显式传递role="critic"。
python critic_model = allocate_train_group( args=args, num_nodes=args.critic_num_nodes, num_gpus_per_node=args.critic_num_gpus_per_node, pg=pgs["critic"], role="critic", # 显式指定角色 )

评论区精华

无review评论，PR直接由zhuzilin合并。提交历史显示作者先提交修复commit，然后合并main分支更新，表明这是基于最新代码的简单修复。

风险与影响

风险分析：

变更范围小，仅修改一个函数签名和两处调用。
向后兼容，新增参数有默认值，不影响现有调用。
逻辑简单，只是参数传递，不涉及复杂业务逻辑。

影响分析：

对用户无直接影响，这是内部训练逻辑修复。
对系统影响小，确保critic训练组正确使用"critic"角色，修复了原有错误。
对团队影响小，代码变更简单易懂。

关联脉络

与近期历史PR对比：

PR #1775：修复Megatron LR scheduler重复恢复问题，同为训练相关逻辑修复。
PR #1741：修复encoder_only属性缺失导致的运行时错误，同为bugfix类型。

此PR延续了仓库近期对训练逻辑和配置的持续优化趋势，体现了对代码细节的关注。

支持 Prhub ♥

#1797 pass critic role through to create RayTrainGroup

执行摘要

修复创建 critic 训练组时未正确传递 role 参数的问题。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论