#5971 [reward] feat: add compute_score timing metrics to agent loop
作者 Stonesjtu · 合并时间 2026-04-13 18:34
为agent loop新增奖励计算耗时指标,用于定位训练瓶颈。
该PR值得快速浏览,可作为性能监控指标添加的参考模板。重点关注:1. simple_timer的使用模式;2. 数据类字段扩展的向后兼容设计;3. slowest样本索引的多指标聚合逻辑修正。
标签列表
聚合结果
作者 Stonesjtu · 合并时间 2026-04-13 18:34
为agent loop新增奖励计算耗时指标,用于定位训练瓶颈。
该PR值得快速浏览,可作为性能监控指标添加的参考模板。重点关注:1. simple_timer的使用模式;2. 数据类字段扩展的向后兼容设计;3. slowest样本索引的多指标聚合逻辑修正。
作者 MaxwellJryao · 合并时间 2026-04-08 10:45
修复math_verify奖励评分因信号超时导致的线程安全问题,通过子进程恢复超时保护。
该PR值得精读,特别是对于涉及多线程环境(如Ray)中信号处理和安全超时的场景。关注点包括: 1. 使用ProcessPoolExecutor隔离信号操作的巧妙设计。 2. 线程安全的单例进程池实现。 3. spawn上下文的选择避免了fork在多线程环境中的典型陷阱。 这些决策对于在分布式训练框架中集成第三方库有借鉴意义。
作者 farazkh80 · 合并时间 2026-03-31 23:52
修复math_verify奖励评分在Ray工作线程中因signal.alarm()限制而静默失败的问题。
该PR值得精读,尤其关注如何绕过signal.alarm()处理线程安全问题,以及异常处理顺序的设计决策。建议工程师学习这种直接调用底层API以避免环境限制的方法。
作者 chenyingshu · 合并时间 2026-03-26 15:54
添加图像奖励支持,用于 FlowGRPO 训练,扩展奖励系统以处理视觉输入。
推荐技术管理者和工程师精读此 PR,关注 VisualRewardManager 的设计和奖励循环的多模态扩展。值得注意的设计决策包括奖励管理器基类的扩展、异步处理实现、以及通过配置驱动的奖励函数选择,这些对于理解仓库架构演进有重要价值。