#5950 [doc] chore: add rloo advantage estimator example script for npu
作者 zjchenn · 合并时间 2026-04-13 16:01
为NPU硬件新增RLOO优势估计器训练示例脚本,并合并到现有GPU脚本中。
该PR值得NPU用户或需要参考RLOO配置的工程师浏览,重点关注设备参数化设计和NPU特定覆盖的实现方式。对于技术管理者,可关注团队如何通过review优化硬件兼容性和验证频率,体现了对用户体验的考量。
作者 zjchenn · 合并时间 2026-04-13 16:01
为NPU硬件新增RLOO优势估计器训练示例脚本,并合并到现有GPU脚本中。
该PR值得NPU用户或需要参考RLOO配置的工程师浏览,重点关注设备参数化设计和NPU特定覆盖的实现方式。对于技术管理者,可关注团队如何通过review优化硬件兼容性和验证频率,体现了对用户体验的考量。
作者 wangshuyang31 · 合并时间 2026-04-13 15:58
新增veomni NPU PPO训练器的端到端CI测试工作流。
该PR值得关心CI基础设施或NPU兼容性的工程师精读,特别是设备检测和配置自适应设计。关注 `run_ppo_trainer_veomni.sh` 中如何通过条件分支处理不同硬件,这是一个可复用的模式。
作者 Superjomn · 合并时间 2026-04-13 13:36
修复TRT-LLM rollout中engine_kwargs覆盖KvCacheConfig导致配置丢失的问题。
该PR值得精读,特别是关注配置合并的设计决策。虽然变更简单,但展示了在多层配置传递中避免覆盖的关键技巧。建议关注gemini-code-assist[bot]提出的重复键和null值处理问题,这可能在类似场景中普遍存在。
作者 Zhikaiiii · 合并时间 2026-04-13 10:29
修复fully_async训练中streaming_generation异常时monitor_task无法停止的问题。
该PR值得快速浏览以了解fully_async训练模式的异常处理机制。虽然变更简单,但展示了在异步训练中正确处理异常的重要性。关注点:finally块的使用确保了资源清理,这是异步编程中的良好实践。
作者 FightingZhen · 合并时间 2026-04-13 10:25
更新 Ascend 相关文件的代码所有者,将 @FightingZhen 替换为 @wucong25。
此 PR 变更简单,无需精读。对于技术管理者,可关注代码所有者调整是否反映了团队职责变化;对于工程师,无需特别关注,除非涉及相关模块的维护工作。
作者 HollowMan6 · 合并时间 2026-04-13 10:25
修复 one-step off-policy E2E CI 工作流中的缩进错误。
此 PR 变更简单,无需精读。对于 CI 维护者或需要了解 one-step off-policy 测试配置的工程师,可以快速浏览以确认缩进修正的正确性。没有复杂的设计决策值得关注。
作者 xhx1022 · 合并时间 2026-04-10 17:15
修复Megatron MTP损失在上下文并行(CP>1)时的死锁问题。
该PR值得精读,尤其是对于使用Megatron进行分布式训练的工程师。关注点在于:1. 死锁根因分析(CP rank参与all_reduce的必要性)。2. 设计权衡:通过分离参与all_reduce和写入指标的逻辑,既解决死锁又保持指标一致性。3. review中关于防御性编程的讨论,展示了实际工程中条件判断的边界考量。
作者 wuxibin89 · 合并时间 2026-04-10 12:15
新增同步PPO训练器,通过TransferQueue解耦数据流以提升大规模训练性能。
该PR值得精读,特别是新训练器架构和TransferQueue集成设计。关注点包括:控制流与数据流解耦的实现、KVBatchMeta的使用、tqbridge装饰器的工作机制。建议工程师学习其性能优化技巧,但需注意review中提出的未解决问题。
参与讨论