Prhub
← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

聚合结果

tool 相关 PR

2026-04-16
功能 重要性 5.86 洞察度 5.00

为 ToolAgentLoop 新增基于样本的工具选择功能,支持多轮 rollout 中每个样本使用不同工具子集。

tool rollout agent_loop experimental

此 PR 值得精读,因为它展示了如何在现有状态机中嵌入样本级配置,而无需大规模重构。关注 `run()` 方法中的工具筛选逻辑和 `getattr` 的使用,这体现了灵活的设计决策,允许逐步迁移到更复杂的工具管理系统。同时,注意 review 中关于实现与描述不符的讨论,这提醒了保持文档同步的重要性。

2026-04-13

#5899 [trainer] fix: return NaN for empty tensors in compute_data_metrics

作者 Jackie2049 · 合并时间 2026-04-13 17:32

缺陷修复 重要性 4.00 洞察度 4.00

修复 PPO 训练器指标计算中空张量导致的崩溃,返回 NaN 以优雅处理边缘情况。

trainer misc tool

建议工程师阅读此 PR 以学习如何优雅处理空张量情况,特别关注 review 中讨论的设计决策,如对 `critic/values` 的双重检查和 Agentic RL 场景的解释。

2026-04-09
2026-04-03

#5860 [trainer] fix: handle empty response_mask in calculate_debug_metrics

作者 Jackie2049 · 合并时间 2026-04-03 22:09

缺陷修复 重要性 3.00 洞察度 2.00

修复calculate_debug_metrics在response_mask全为False时的运行时错误。

trainer misc tool

该PR值得快速浏览,但无需深入精读。关注点在于:1)防御性编程模式:通过早期返回处理无效输入。2)NaN作为无效指标的标准处理方式。对于涉及调试指标或极端采样场景的开发者,了解此修复可避免类似崩溃。

#5186 [tool] feat: verl integrate msprobe data collection

作者 Tjh-UKN · 合并时间 2026-04-03 16:55

功能 重要性 7.00 洞察度 6.00

集成msprobe精度调试工具到VERL统一性能分析系统,支持Ascend训练侧数据收集。

tool perf npu trainer doc

建议技术管理者和工程师精读此PR,重点关注其如何将外部工具集成到统一分析器框架的设计决策,特别是阶段映射、模型解析和开销管理。值得关注`PrecisionDebuggerProfiler`类的实现和配置统一化方式,可作为类似集成的参考模板。