Prhub
← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

聚合结果

worker 相关 PR

2026-04-02
2026-03-31
缺陷修复 重要性 6.00 洞察度 5.00

修复math_verify奖励评分在Ray工作线程中因signal.alarm()限制而静默失败的问题。

reward worker misc

该PR值得精读,尤其关注如何绕过signal.alarm()处理线程安全问题,以及异常处理顺序的设计决策。建议工程师学习这种直接调用底层API以避免环境限制的方法。

缺陷修复 重要性 5.00 洞察度 4.00

修复NPU环境下split_resource_pool的设备名设置,避免Ray自动扩展失败。

distillation worker misc

建议关注此PR,以了解如何在Ray actor中正确处理设备检测。对于类似代码,考虑采纳gemini的建议,将设备检测逻辑中心化,并添加相应测试以确保覆盖,以提高代码质量和维护性。

#5823 [rollout] fix: processor does not have image_processor.

作者 SanftMonster · 合并时间 2026-03-31 19:54

缺陷修复 重要性 3.00 洞察度 2.00

修复 rollout 处理器缺失 image_processor 时的属性错误,避免程序崩溃。

rollout worker misc

这是一个简单的防御性编程修复,值得快速浏览以学习如何在类似场景中应用 hasattr 检查避免属性错误,但对于复杂设计决策的学习价值有限。建议工程师在访问可能缺失的属性时参考此做法。

2026-03-30

#5816 [tool] chore: remove hard-code tool agent loop in fully async

作者 yyDing1 · 合并时间 2026-03-30 22:46

重构 重要性 3.00 洞察度 4.00

移除完全异步策略中硬编码的工具代理循环,简化agent名称分配逻辑。

misc rollout worker

建议开发者在阅读此PR时,关注review中指出的潜在风险,并检查下游代码(如agent_loop或rollout模块)是否适配agent_name的隐式处理。此PR展示了代码清理时的设计权衡,值得注意但变更简单,无需深度精读。

#5795 [trainer] feat: enable expandable segment support for npu

作者 ji-huazhong · 合并时间 2026-03-30 14:46

功能 重要性 4.00 洞察度 5.00

为 NPU 设备启用 expandable segment 支持,优化内存分配。

trainer worker misc

建议开发者关注此 PR 的 TODO 注释和未来重构方向,了解 NPU 内存管理的最佳实践。对于涉及设备特定优化或训练工作者初始化的代码,此 PR 提供临时解决方案,值得参考以理解过渡设计。

2026-03-26

#5591 [fsdp] fix: pass dp_group to prepare_dynamic_batch to fix CUDA deadlock

作者 JenniferWang · 合并时间 2026-03-26 16:06

缺陷修复 重要性 6.00 洞察度 4.00

修复FSDP训练中动态批处理导致的CUDA死锁,通过传递dp_group参数确保micro-batch计数同步。

fsdp worker misc

该PR值得精读以理解FSDP同步机制和动态批处理的实现细节。关键设计决策是使用WORLD作为dp_group确保所有rank同步,工程师可以学习如何避免分布式训练中的死锁问题。

#5728 [trtllm, rollout] fix: partial loading logic

作者 hchings · 合并时间 2026-03-26 11:53

缺陷修复 重要性 5.00 洞察度 4.00

修复 TRTLLM rollout 非 VLM 模型部分加载逻辑,从禁用改为启用。

rollout worker misc

建议相关工程师阅读此 PR,以理解 TRTLLM rollout 部分加载逻辑的修正,特别是涉及异步处理的设计决策,有助于在类似场景中避免错误。