Prhub
← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

聚合结果

distillation 相关 PR

2026-04-17

#6041 [rollout] fix: RM sleep/wake teacher replicas

作者 JacobHelwig · 合并时间 2026-04-17 13:44

缺陷修复 重要性 4.97 洞察度 3.00

移除教师模型管理器的休眠/唤醒逻辑,简化在线蒸馏流程。

rollout distillation experimental

该PR值得快速浏览,以了解在线蒸馏中教师模型状态管理的简化决策。关注点在于移除休眠/唤醒是否带来性能提升或资源权衡,建议结合近期蒸馏相关PR(如#6039、#5997)理解整体演进方向。

#6039 [trainer, rollout, algo] refactor: Remove OPD colocate mode

作者 JacobHelwig · 合并时间 2026-04-17 13:12

重构 重要性 8.91 洞察度 5.00

移除在线策略蒸馏的共置模式,强制使用独立资源池,简化教师模型管理逻辑。

trainer distillation rollout experimental

该 PR 值得精读,尤其是对于涉及蒸馏和资源管理的开发者。关注点包括:教师模型管理器的简化设计、配置契约的变更,以及 review 中提到的序列化优化机会。

#5997 [trainer,algo] feat: Support On-Policy Distillation in `main_ppo_sync`

作者 0oshowero0 · 合并时间 2026-04-17 11:10

功能 重要性 7.40 洞察度 6.00

在同步PPO训练器中新增基于资源池的在线策略蒸馏支持,打通教师模型与TQ数据流。

trainer distillation rollout experimental

该PR值得精读,尤其关注其如何将教师模型集成到现有同步训练框架中。设计决策上,优先支持独立资源池模式而非共置模式,这反映了系统架构向解耦和可扩展性发展的方向。建议重点阅读`transferqueue_utils.py`中KVBatchMeta的适配逻辑,以及`main_ppo_sync.py`中资源池初始化和教师管理器唤醒的时序控制。

2026-04-01

#5826 [megatron] feat: support cp for bshd format

作者 wuxibin89 · 合并时间 2026-04-01 10:42

功能 重要性 6.00 洞察度 7.00

为bshd格式添加上下文并行支持,优化Megatron引擎序列处理性能。

megatron model perf distillation

建议技术管理者和相关工程师精读此PR,重点关注`util.py`中的序列对齐和梯度流修复设计,这些决策对实现高性能并行处理有借鉴意义。对于使用bshd格式的项目,需测试CP配置以确保兼容性。

2026-03-31
缺陷修复 重要性 5.00 洞察度 4.00

修复NPU环境下split_resource_pool的设备名设置,避免Ray自动扩展失败。

distillation worker misc

建议关注此PR,以了解如何在Ray actor中正确处理设备检测。对于类似代码,考虑采纳gemini的建议,将设备检测逻辑中心化,并添加相应测试以确保覆盖,以提高代码质量和维护性。

2026-03-26

#5745 [2/2][rollout,trainer] feat: Teacher colocate mode

作者 JacobHelwig · 合并时间 2026-03-26 11:52

功能 重要性 6.00 洞察度 7.00

添加教师模型colocate模式,支持在rollout后计算教师logprobs。

trainer rollout teacher distillation

建议技术管理者和工程师精读此PR,特别关注教师logprobs计算路径的设计决策,如stream_teacher_with_rollout标志的使用和批处理实现。同时,检查review中指出的bug是否已在提交历史中妥善解决,并评估测试覆盖是否充分。

2026-03-25
重构 重要性 6.00 洞察度 5.00

重构教师模型对数概率计算,移动至专用管理器以提升模块化。

teacher distillation

建议技术管理者和工程师精读此PR,关注设计决策如分离关注点、处理循环依赖和初始化顺序修复。重点关注verl/experimental/teacher_loop/teacher_manager.py中新类的实现,以及agent_loop.py中的修改逻辑,以理解重构带来的模块化改进和潜在风险。