#6024 [trainer] fix: add missing rollout dump and corrected validation logging in main_ppo_sync
作者 guillemgt · 合并时间 2026-04-17 11:12
修复同步PPO训练器验证阶段多输出会话指标计算错误和缺失的日志转储功能。
该PR值得精读,尤其是键过滤逻辑和`reward_extra_info`收集的修复,展示了处理多输出会话和动态字段的典型模式。关注`_validate()`中`session_max`字典的设计,以及如何确保列表长度一致性的方法(填充None)。