#5969 [data, trainer] fix: batch padding for multi-trajectory
作者 ZhentaoFan · 合并时间 2026-04-16 23:26
缺陷修复
重要性 8.43
洞察度 6.00
修复多轨迹训练中批次样本数不满足数据并行和PPO小批次可除性导致的错误。
data
trainer
rollout
misc
该PR值得精读,特别是`padding_utils.py`中的设计决策:如何构造最小填充样本、处理多维位置ID和专家路由、以及通过`is_padding`标签隔离指标计算。这些设计对于理解分布式训练中的数据对齐和性能权衡有重要参考价值。同时,应关注review中提到的性能瓶颈和边缘情况,在实际部署中监控I/O开销和指标准确性。