Prhub
← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

聚合结果

perf 相关 PR

2026-04-15

#5989 [megatron] fix: add missing FP8 padding for router replay

作者 eternally-z · 合并时间 2026-04-15 22:01

缺陷修复 重要性 6.01 洞察度 4.00

修复Megatron路由器重放路径缺失FP8填充逻辑,确保FP8训练结果正确。

megatron trainer misc perf

该PR值得精读,特别是关注FP8配置如何集成到现有路由器重放流程中。值得关注的设计决策包括: 1. 通过`tf_config.fp8 in ["e4m3", "hybrid"]`判断是否启用FP8填充,这反映了项目对FP8训练模式的标准化处理。 2. 将填充参数统一传递给预处理函数,展示了配置参数在数据流水线中的传递模式。 建议结合review评论思考安全性和性能的潜在改进空间。

#5900 [veomni] feat: bump veomni to v0.1.8

作者 deerlu · 合并时间 2026-04-15 17:13

功能 重要性 7.61 洞察度 6.00

升级VeOmni至v0.1.8,修复并行参数并新增打包序列Flash Attention预处理。

veomni trainer perf misc

建议工程师精读此PR,重点关注`_prepare_veomni_flash_attention_kwargs`函数的实现细节和设备处理,以及配置自动重写机制的设计决策,这些对理解VeOmni集成和序列并行优化有参考价值。

#6005 [megatron] fix: update patch for MLA flashattn forward

作者 HollowMan6 · 合并时间 2026-04-15 12:26

缺陷修复 重要性 6.29 洞察度 6.00

更新Megatron MLA前向补丁逻辑,使其在mcore版本≥0.16.2时可选应用。

megatron trainer misc perf

该PR值得精读,尤其是`patch_forward`函数中THD打包序列逻辑的重构,展示了如何优雅地处理查询与值头维度不同的边缘情况。关注作者对DSA变体排除逻辑的决策,这反映了对代码上下文的深度理解。

2026-04-14

#6004 [doc] feat: move msprobe to ascend_tutorial

作者 tardis-key · 合并时间 2026-04-14 16:53

文档 重要性 2.00 洞察度 2.00

将 PrecisionDebugger 文档移动到 ascend_tutorial 目录并简化配置示例。

doc npu perf

该 PR 变更简单,主要涉及文档整理,无需深入精读。建议关注配置简化的合理性,并确认 summary_mode 变更是否与近期 PR(如 #5986)的 PrecisionDebugger 改进一致。

#5986 [perf] feat: simplify precision_debugger config behavior and docs

作者 Tjh-UKN · 合并时间 2026-04-14 15:52

性能优化 重要性 6.00 洞察度 5.00

简化 PrecisionDebugger 配置,统一使用全局 profiler 控制步骤和保存路径。

perf doc trainer npu

该 PR 值得精读,重点关注配置简化设计如何统一 profiler 控制。推荐关注 PrecisionDebuggerToolConfig 类的变更和 PrecisionDebuggerProfiler 中路径与步骤逻辑的调整,这些是核心设计决策。对于使用 msprobe 的工程师,应仔细阅读更新后的文档以适应新配置方式。

2026-04-13

#5971 [reward] feat: add compute_score timing metrics to agent loop

作者 Stonesjtu · 合并时间 2026-04-13 18:34

功能 重要性 5.00 洞察度 4.00

为agent loop新增奖励计算耗时指标,用于定位训练瓶颈。

reward perf agent_loop

该PR值得快速浏览,可作为性能监控指标添加的参考模板。重点关注:1. simple_timer的使用模式;2. 数据类字段扩展的向后兼容设计;3. slowest样本索引的多指标聚合逻辑修正。

2026-04-10

#5401 [trainer] feat: add new trainer with TranferQueue

作者 wuxibin89 · 合并时间 2026-04-10 12:15

功能 重要性 7.00 洞察度 6.00

新增同步PPO训练器,通过TransferQueue解耦数据流以提升大规模训练性能。

trainer rollout perf transferqueue

该PR值得精读,特别是新训练器架构和TransferQueue集成设计。关注点包括:控制流与数据流解耦的实现、KVBatchMeta的使用、tqbridge装饰器的工作机制。建议工程师学习其性能优化技巧,但需注意review中提出的未解决问题。

2026-04-09

#5934 [vllm] fix: remove redudant clone in weight refit

作者 wuxibin89 · 合并时间 2026-04-09 19:49

缺陷修复 重要性 5.00 洞察度 6.00

修复vLLM权重重配中的冗余克隆和竞态条件,并启用编码器缓存重置。

vllm rollout perf npu

建议精读`bucketed_weight_transfer.py`的变更,重点关注竞态条件修复的实现逻辑。对于涉及vLLM权重传输或colocate模式开发的工程师,此PR展示了缓冲区同步和版本条件处理的设计决策,值得学习。