Prhub
← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

聚合结果

reward 相关 PR

2026-04-13

#5971 [reward] feat: add compute_score timing metrics to agent loop

作者 Stonesjtu · 合并时间 2026-04-13 18:34

功能 重要性 5.00 洞察度 4.00

为agent loop新增奖励计算耗时指标,用于定位训练瓶颈。

reward perf agent_loop

该PR值得快速浏览,可作为性能监控指标添加的参考模板。重点关注:1. simple_timer的使用模式;2. 数据类字段扩展的向后兼容设计;3. slowest样本索引的多指标聚合逻辑修正。

2026-04-08

#5839 [reward] fix: restore timeout in math_verify via ProcessPoolExecutor

作者 MaxwellJryao · 合并时间 2026-04-08 10:45

缺陷修复 重要性 6.00 洞察度 7.00

修复math_verify奖励评分因信号超时导致的线程安全问题,通过子进程恢复超时保护。

reward misc trainer

该PR值得精读,特别是对于涉及多线程环境(如Ray)中信号处理和安全超时的场景。关注点包括: 1. 使用ProcessPoolExecutor隔离信号操作的巧妙设计。 2. 线程安全的单例进程池实现。 3. spawn上下文的选择避免了fork在多线程环境中的典型陷阱。 这些决策对于在分布式训练框架中集成第三方库有借鉴意义。

2026-03-31
缺陷修复 重要性 6.00 洞察度 5.00

修复math_verify奖励评分在Ray工作线程中因signal.alarm()限制而静默失败的问题。

reward worker misc

该PR值得精读,尤其关注如何绕过signal.alarm()处理线程安全问题,以及异常处理顺序的设计决策。建议工程师学习这种直接调用底层API以避免环境限制的方法。

2026-03-26
功能 重要性 7.00 洞察度 6.00

添加图像奖励支持,用于 FlowGRPO 训练,扩展奖励系统以处理视觉输入。

reward trainer misc

推荐技术管理者和工程师精读此 PR,关注 VisualRewardManager 的设计和奖励循环的多模态扩展。值得注意的设计决策包括奖励管理器基类的扩展、异步处理实现、以及通过配置驱动的奖励函数选择,这些对于理解仓库架构演进有重要价值。