Prhub
← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

聚合结果

agent_loop 相关 PR

2026-04-16
功能 重要性 5.86 洞察度 5.00

为 ToolAgentLoop 新增基于样本的工具选择功能,支持多轮 rollout 中每个样本使用不同工具子集。

tool rollout agent_loop experimental

此 PR 值得精读,因为它展示了如何在现有状态机中嵌入样本级配置,而无需大规模重构。关注 `run()` 方法中的工具筛选逻辑和 `getattr` 的使用,这体现了灵活的设计决策,允许逐步迁移到更复杂的工具管理系统。同时,注意 review 中关于实现与描述不符的讨论,这提醒了保持文档同步的重要性。

2026-04-14
其他 重要性 6.00 洞察度 5.00

升级vllm-omni至0.18.0官方版本,新增TP支持并同步上游代码模式。

ci vllm agent_loop diffusion

建议开发者精读此PR以了解vllm-omni 0.18.0的集成方式,特别是TP支持的测试策略和代码简化模式。关注_create_tp_compatible_model函数的设计,适用于处理模型配置不兼容的测试场景,以及如何通过上下文管理器优雅管理临时资源。

2026-04-13

#5971 [reward] feat: add compute_score timing metrics to agent loop

作者 Stonesjtu · 合并时间 2026-04-13 18:34

功能 重要性 5.00 洞察度 4.00

为agent loop新增奖励计算耗时指标,用于定位训练瓶颈。

reward perf agent_loop

该PR值得快速浏览,可作为性能监控指标添加的参考模板。重点关注:1. simple_timer的使用模式;2. 数据类字段扩展的向后兼容设计;3. slowest样本索引的多指标聚合逻辑修正。