#6039 [trainer, rollout, algo] refactor: Remove OPD colocate mode
作者 JacobHelwig · 合并时间 2026-04-17 13:12
移除在线策略蒸馏的共置模式,强制使用独立资源池,简化教师模型管理逻辑。
该 PR 值得精读,尤其是对于涉及蒸馏和资源管理的开发者。关注点包括:教师模型管理器的简化设计、配置契约的变更,以及 review 中提到的序列化优化机会。
标签列表
聚合结果
作者 JacobHelwig · 合并时间 2026-04-17 13:12
移除在线策略蒸馏的共置模式,强制使用独立资源池,简化教师模型管理逻辑。
该 PR 值得精读,尤其是对于涉及蒸馏和资源管理的开发者。关注点包括:教师模型管理器的简化设计、配置契约的变更,以及 review 中提到的序列化优化机会。
作者 zhtmike · 合并时间 2026-04-17 12:11
新增基于Ray的FlowGRPO扩散模型训练器,支持图像生成强化学习。
该PR值得精读,特别是`ray_diffusion_trainer.py`中的训练循环设计和`diffusion_algos.py`中的优势计算实现。关注点包括:(1) 扩散模型如何适配VERL的`DataProto`和训练框架;(2) 针对时间步的掩码和指标计算与语言模型处理的差异;(3) 审阅中关于优势计算标准差的未决争议,这反映了算法实现与原始论文的权衡。
作者 guillemgt · 合并时间 2026-04-17 11:12
修复同步PPO训练器验证阶段多输出会话指标计算错误和缺失的日志转储功能。
该PR值得精读,尤其是键过滤逻辑和`reward_extra_info`收集的修复,展示了处理多输出会话和动态字段的典型模式。关注`_validate()`中`session_max`字典的设计,以及如何确保列表长度一致性的方法(填充None)。
作者 0oshowero0 · 合并时间 2026-04-17 11:10
在同步PPO训练器中新增基于资源池的在线策略蒸馏支持,打通教师模型与TQ数据流。
该PR值得精读,尤其关注其如何将教师模型集成到现有同步训练框架中。设计决策上,优先支持独立资源池模式而非共置模式,这反映了系统架构向解耦和可扩展性发展的方向。建议重点阅读`transferqueue_utils.py`中KVBatchMeta的适配逻辑,以及`main_ppo_sync.py`中资源池初始化和教师管理器唤醒的时序控制。
作者 Luosuu · 合并时间 2026-04-17 10:43
修复VeOmni FSDP引擎加载模型时使用本地路径而非远程路径的问题。
该PR值得快速浏览,重点关注路径解析逻辑的调整,以理解VeOmni引擎在缓存环境下的模型加载机制。对于涉及远程模型存储的开发者,此设计决策展示了如何优雅处理本地与远程路径的切换。
作者 ZhentaoFan · 合并时间 2026-04-16 23:26
修复多轨迹训练中批次样本数不满足数据并行和PPO小批次可除性导致的错误。
该PR值得精读,特别是`padding_utils.py`中的设计决策:如何构造最小填充样本、处理多维位置ID和专家路由、以及通过`is_padding`标签隔离指标计算。这些设计对于理解分布式训练中的数据对齐和性能权衡有重要参考价值。同时,应关注review中提到的性能瓶颈和边缘情况,在实际部署中监控I/O开销和指标准确性。
作者 wangshuyang31 · 合并时间 2026-04-16 21:03
新增 Qwen3-235B 完全异步 GRPO NPU 训练脚本并修复引擎补丁问题。
建议工程师在类似 NPU 环境部署时参考此脚本的参数配置,并关注 `override_transformer_config` 修复以确保补丁应用正确性;该 PR 值得快速浏览以了解 fully_async 训练扩展。
作者 MaxwellJryao · 合并时间 2026-04-16 14:04
修复 Megatron Actor 训练中忽略 calculate_entropy 配置的问题,使其与 dp_actor 行为一致。
该 PR 值得精读,特别是对于负责 Megatron 训练模块或配置系统的工程师。关注点包括:1) 如何通过 `self.config.get` 安全地处理可能缺失的配置键;2) 熵指标记录与损失计算解耦的设计,这体现了监控与优化目标分离的良好实践;3) 修复如何确保向后兼容性,不影响现有用户。