#6041 [rollout] fix: RM sleep/wake teacher replicas
作者 JacobHelwig · 合并时间 2026-04-17 13:44
移除教师模型管理器的休眠/唤醒逻辑,简化在线蒸馏流程。
该PR值得快速浏览,以了解在线蒸馏中教师模型状态管理的简化决策。关注点在于移除休眠/唤醒是否带来性能提升或资源权衡,建议结合近期蒸馏相关PR(如#6039、#5997)理解整体演进方向。
标签列表
聚合结果
作者 JacobHelwig · 合并时间 2026-04-17 13:44
移除教师模型管理器的休眠/唤醒逻辑,简化在线蒸馏流程。
该PR值得快速浏览,以了解在线蒸馏中教师模型状态管理的简化决策。关注点在于移除休眠/唤醒是否带来性能提升或资源权衡,建议结合近期蒸馏相关PR(如#6039、#5997)理解整体演进方向。
作者 JacobHelwig · 合并时间 2026-04-17 13:12
移除在线策略蒸馏的共置模式,强制使用独立资源池,简化教师模型管理逻辑。
该 PR 值得精读,尤其是对于涉及蒸馏和资源管理的开发者。关注点包括:教师模型管理器的简化设计、配置契约的变更,以及 review 中提到的序列化优化机会。
作者 0oshowero0 · 合并时间 2026-04-17 11:10
在同步PPO训练器中新增基于资源池的在线策略蒸馏支持,打通教师模型与TQ数据流。
该PR值得精读,尤其关注其如何将教师模型集成到现有同步训练框架中。设计决策上,优先支持独立资源池模式而非共置模式,这反映了系统架构向解耦和可扩展性发展的方向。建议重点阅读`transferqueue_utils.py`中KVBatchMeta的适配逻辑,以及`main_ppo_sync.py`中资源池初始化和教师管理器唤醒的时序控制。
作者 wuxibin89 · 合并时间 2026-04-01 10:42
为bshd格式添加上下文并行支持,优化Megatron引擎序列处理性能。
建议技术管理者和相关工程师精读此PR,重点关注`util.py`中的序列对齐和梯度流修复设计,这些决策对实现高性能并行处理有借鉴意义。对于使用bshd格式的项目,需测试CP配置以确保兼容性。
作者 0oshowero0 · 合并时间 2026-03-31 21:16
修复NPU环境下split_resource_pool的设备名设置,避免Ray自动扩展失败。
建议关注此PR,以了解如何在Ray actor中正确处理设备检测。对于类似代码,考虑采纳gemini的建议,将设备检测逻辑中心化,并添加相应测试以确保覆盖,以提高代码质量和维护性。
作者 JacobHelwig · 合并时间 2026-03-26 11:52
添加教师模型colocate模式,支持在rollout后计算教师logprobs。
建议技术管理者和工程师精读此PR,特别关注教师logprobs计算路径的设计决策,如stream_teacher_with_rollout标志的使用和批处理实现。同时,检查review中指出的bug是否已在提交历史中妥善解决,并评估测试覆盖是否充分。
作者 JacobHelwig · 合并时间 2026-03-25 10:14
重构教师模型对数概率计算,移动至专用管理器以提升模块化。
建议技术管理者和工程师精读此PR,关注设计决策如分离关注点、处理循环依赖和初始化顺序修复。重点关注verl/experimental/teacher_loop/teacher_manager.py中新类的实现,以及agent_loop.py中的修改逻辑,以理解重构带来的模块化改进和潜在风险。