← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

misc · 79

trainer · 64

rollout · 35

megatron · 32

npu · 31

ci · 27

model · 24

perf · 17

vllm · 16

doc · 14

examples · 14

fsdp · 12

config · 11

worker · 10

docker · 9

distillation · 7

experimental · 7

fully_async · 7

lora · 6

algo · 5

deps · 5

quantization · 5

sglang · 5

tool · 5

ckpt · 4

diffusion · 4

reward · 4

agent_loop · 3

trtllm · 3

veomni · 3

data · 2

teacher · 2

one_step_off · 1

transferqueue · 1

聚合结果

reward 相关 PR

2026-04-13

#5971 [reward] feat: add compute_score timing metrics to agent loop

作者 Stonesjtu · 合并时间 2026-04-13 18:34

功能重要性 5.00 洞察度 4.00

为agent loop新增奖励计算耗时指标，用于定位训练瓶颈。

reward perf agent_loop

该PR值得快速浏览，可作为性能监控指标添加的参考模板。重点关注：1. simple_timer的使用模式；2. 数据类字段扩展的向后兼容设计；3. slowest样本索引的多指标聚合逻辑修正。

查看完整分析 GitHub 原始 PR

2026-04-08

#5839 [reward] fix: restore timeout in math_verify via ProcessPoolExecutor

作者 MaxwellJryao · 合并时间 2026-04-08 10:45

缺陷修复重要性 6.00 洞察度 7.00

修复math_verify奖励评分因信号超时导致的线程安全问题，通过子进程恢复超时保护。

reward misc trainer

该PR值得精读，特别是对于涉及多线程环境（如Ray）中信号处理和安全超时的场景。关注点包括： 1. 使用ProcessPoolExecutor隔离信号操作的巧妙设计。 2. 线程安全的单例进程池实现。 3. spawn上下文的选择避免了fork在多线程环境中的典型陷阱。这些决策对于在分布式训练框架中集成第三方库有借鉴意义。

查看完整分析 GitHub 原始 PR

2026-03-31

#5635 [reward] fix: disable signal.alarm() in math_verify to fix silent scoring failure in Ray workers

作者 farazkh80 · 合并时间 2026-03-31 23:52

缺陷修复重要性 6.00 洞察度 5.00

修复math_verify奖励评分在Ray工作线程中因signal.alarm()限制而静默失败的问题。

reward worker misc

该PR值得精读，尤其关注如何绕过signal.alarm()处理线程安全问题，以及异常处理顺序的设计决策。建议工程师学习这种直接调用底层API以避免环境限制的方法。

查看完整分析 GitHub 原始 PR

2026-03-26

#5713 [3/n][reward] feat: flowgrpo - support image-based rewards (rule-based & genrm)

作者 chenyingshu · 合并时间 2026-03-26 15:54

功能重要性 7.00 洞察度 6.00

添加图像奖励支持，用于 FlowGRPO 训练，扩展奖励系统以处理视觉输入。

reward trainer misc

推荐技术管理者和工程师精读此 PR，关注 VisualRewardManager 的设计和奖励循环的多模态扩展。值得注意的设计决策包括奖励管理器基类的扩展、异步处理实现、以及通过配置驱动的奖励函数选择，这些对于理解仓库架构演进有重要价值。

查看完整分析 GitHub 原始 PR