#5745 [2/2][rollout,trainer] feat: Teacher colocate mode
作者 JacobHelwig · 合并时间 2026-03-26 11:52
功能
重要性 6.00
洞察度 7.00
添加教师模型colocate模式,支持在rollout后计算教师logprobs。
trainer
rollout
teacher
distillation
建议技术管理者和工程师精读此PR,特别关注教师logprobs计算路径的设计决策,如stream_teacher_with_rollout标志的使用和批处理实现。同时,检查review中指出的bug是否已在提交历史中妥善解决,并评估测试覆盖是否充分。