#5745 [2/2][rollout,trainer] feat: Teacher colocate mode

verl-project/verl · 作者 JacobHelwig · 合并时间 2026-03-26 11:52

分析状态已生成

文件变更 6提交数 12 · 评论 4

代码增减 +174 / -44

trainer rollout teacher distillation

执行摘要

添加教师模型 colocate 模式，支持在 rollout 后计算教师 logprobs。

根据PR body，此PR是#5723的延续，旨在解决在student rollouts完成后计算教师logprobs的问题，以避免教师模型在rollout期间占用资源。@wuxibin89指出了从当前colocate模式切换到新模式的必要性，以优化蒸馏训练流程。

建议技术管理者和工程师精读此PR，特别关注教师logprobs计算路径的设计决策，如stream_teacher_with_rollout标志的使用和批处理实现。同时，检查review中指出的bug是否已在提交历史中妥善解决，并评估测试覆盖是否充分。

讨论亮点

Review讨论聚焦于三个关键点：gemini-code-assist[bot]指出_pad_teacher_outputs函数可能因张量维度错误导致RuntimeError，并建议compute_teacher_logprobs_batch添加空输入处理检查；wuxibin89建议compute_teacher_logprobs_single接收input_ids而非prompt_ids和response_ids以简化逻辑，JacobHelwig回应并提供diff表示已采纳；这些讨论帮助识别了潜在bug并优化了设计，但部分问题如_pad_teacher_outputs的修复状态未明确确认。

实现拆解

实现方案分为三个核心层次：首先，在agent_loop.py中引入stream_teacher_with_rollout标志，基于distillation_config.teacher_model.enable_resource_pool控制教师server的初始化；其次，在teacher_manager.py中添加compute_teacher_logprobs_batch函数支持批处理计算，并修改_unpad_teacher_inputs和compute_teacher_logprobs_single以优化输入格式；最后，在teacher_model.py和ray_trainer.py中集成colocate计算路径，通过_compute_teacher_colocate等方法在训练流程中调用。

文件	模块	状态	重要度
`verl/experimental/teacher_loop/teacher_manager.py`	teacher_loop	modified	9.0
`verl/experimental/agent_loop/agent_loop.py`	agent_loop	modified	7.0
`verl/trainer/ppo/ray_trainer.py`	trainer	modified	7.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

compute_teacher_logprobs_batch _compute_teacher_colocate _should_compute_teacher_colocate _unpad_teacher_inputs

评论区精华

_pad_teacher_outputs 张量维度错误 正确性

gemini-code-assist[bot] 指出函数可能导致 RuntimeError，因为 teacher_ids 是 1D 张量但使用 4 元素 padding 元组。

结论：从 commit 历史看可能有修复（如提交 'Unpad teacher inputs'），但未在 review 中明确确认。 · partially_resolved

compute_teacher_logprobs_batch 空输入处理 正确性

gemini-code-assist[bot] 建议添加检查处理 len(data)==0 的情况，以避免 torch.cat 异常。

结论：review 中未明确采纳，但代码变更可能已隐含处理，需进一步验证。 · suggested

compute_teacher_logprobs_single 输入格式优化 设计

wuxibin89 建议函数接收 input_ids 而非 prompt_ids 和 response_ids，以简化逻辑。

结论：JacobHelwig 回应并提供 diff，表明已修改为接收 sequence_ids，优化了设计。 · 已解决

风险与影响

技术风险包括：_pad_teacher_outputs函数在verl/experimental/teacher_loop/teacher_manager.py中可能存在张量维度不匹配，导致运行时错误；compute_teacher_logprobs_batch未处理空输入，可能引发torch.cat异常；stream_teacher_with_rollout标志的引入增加配置复杂性，需确保在不同模式下正确设置；测试文件有修改但覆盖度有限，可能遗漏回归场景。

对用户影响：提供了更灵活的教师模型计算模式，可根据资源池配置选择colocate或standalone模式，可能提升训练效率和资源利用率。对系统影响：扩展了蒸馏功能的核心路径，需确保与现有rollout和训练逻辑兼容，避免性能退化或崩溃。对团队影响：增强了代码模块化，但需跟进review中识别的bug修复，并可能影响后续蒸馏相关开发。

张量维度错误风险边界条件处理不足新标志增加配置复杂性

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：添加教师模型colocate模式，支持在rollout后计算教师logprobs。
推荐动作：建议技术管理者和工程师精读此PR，特别关注教师logprobs计算路径的设计决策，如stream_teacher_with_rollout标志的使用和批处理实现。同时，检查review中指出的bug是否已在提交历史中妥善解决，并评估测试覆盖是否充分。

功能与动机

实现拆解

关键文件：

verl/experimental/teacher_loop/teacher_manager.py（模块 teacher_loop）: 核心修改文件，添加compute_teacher_logprobs_batch函数和_unpad_teacher_inputs逻辑，是教师logprobs计算的关键模块，review中讨论了多个bug风险。
verl/experimental/agent_loop/agent_loop.py（模块 agent_loop）: 引入stream_teacher_with_rollout标志，控制教师server的初始化和计算路径，影响蒸馏模式切换逻辑。
verl/trainer/ppo/ray_trainer.py（模块 trainer）: 集成colocate计算路径，添加_compute_teacher_colocate和_should_compute_teacher_colocate方法，直接影响训练流程中的教师logprobs计算时机。

关键符号：compute_teacher_logprobs_batch, _compute_teacher_colocate, _should_compute_teacher_colocate, _unpad_teacher_inputs

评论区精华

_pad_teacher_outputs张量维度错误 (correctness): 从commit历史看可能有修复（如提交'Unpad teacher inputs'），但未在review中明确确认。
compute_teacher_logprobs_batch空输入处理 (correctness): review中未明确采纳，但代码变更可能已隐含处理，需进一步验证。
compute_teacher_logprobs_single输入格式优化 (design): JacobHelwig回应并提供diff，表明已修改为接收sequence_ids，优化了设计。

风险与影响

风险：技术风险包括：_pad_teacher_outputs函数在verl/experimental/teacher_loop/teacher_manager.py中可能存在张量维度不匹配，导致运行时错误；compute_teacher_logprobs_batch未处理空输入，可能引发torch.cat异常；stream_teacher_with_rollout标志的引入增加配置复杂性，需确保在不同模式下正确设置；测试文件有修改但覆盖度有限，可能遗漏回归场景。
影响：对用户影响：提供了更灵活的教师模型计算模式，可根据资源池配置选择colocate或standalone模式，可能提升训练效率和资源利用率。对系统影响：扩展了蒸馏功能的核心路径，需确保与现有rollout和训练逻辑兼容，避免性能退化或崩溃。对团队影响：增强了代码模块化，但需跟进review中识别的bug修复，并可能影响后续蒸馏相关开发。
风险标记：张量维度错误风险, 边界条件处理不足, 新标志增加配置复杂性

关联脉络

PR #5723 [1/2][rollout,trainer] refactor: Teacher colocate mode -- Move teacher logprob computation to AsyncTeacherLLMServerManager: 这是本PR的第一部分，共同实现教师colocate模式的重构，移动教师logprob计算到专用管理器。

支持 Prhub ♥

#5745 [2/2][rollout,trainer] feat: Teacher colocate mode

执行摘要

添加教师模型 colocate 模式，支持在 rollout 后计算教师 logprobs。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论