Prhub
← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

聚合结果

megatron 相关 PR

2026-04-17
缺陷修复 重要性 6.23 洞察度 6.00

修复完全异步训练中部分rollout恢复时routed_experts拼接错误,确保路由专家与生成模型版本一致。

fully_async rollout experimental megatron

该PR值得精读,特别是对于从事异步训练和MoE模型开发的工程师。关注点包括:1) 如何在部分rollout中处理模型版本差异;2) 路由专家拼接的设计决策(切片而非替换);3) review中关于张量类型的讨论,展示了实际环境中数据类型的保证。

#6029 [fully_async] fix: replace routed_experts on partial rollout resume i…

作者 NoonePauseferg · 合并时间 2026-04-17 10:42

缺陷修复 重要性 5.66 洞察度 6.00

修复完全异步策略中部分rollout恢复时MoE路由专家重复拼接导致的训练不稳定问题。

fully_async rollout experimental megatron

该PR值得精读,它揭示了在异步训练中处理路由专家数据时的关键设计决策:直接替换而非拼接,以确保路由与权重版本一致。关注作者与reviewer关于路由切片方案的讨论,以及实验结果的权衡。

2026-04-16

#6012 [fully_async] fix: add fully async grpo qwen3-235b npu script in main branch

作者 wangshuyang31 · 合并时间 2026-04-16 21:03

缺陷修复 重要性 5.30 洞察度 3.00

新增 Qwen3-235B 完全异步 GRPO NPU 训练脚本并修复引擎补丁问题。

fully_async npu trainer megatron examples

建议工程师在类似 NPU 环境部署时参考此脚本的参数配置,并关注 `override_transformer_config` 修复以确保补丁应用正确性;该 PR 值得快速浏览以了解 fully_async 训练扩展。

#6001 [data] fix: pad data in preprocess_packed_seqs if shorter than align_size

作者 beirong8kmiles · 合并时间 2026-04-16 16:04

缺陷修复 重要性 5.91 洞察度 4.00

修复序列预处理中数据长度不足导致的索引越界问题,确保上下文并行切片安全。

data megatron misc

该 PR 值得精读,因为它展示了在分布式训练中处理数据对齐和边界条件的典型模式。关注点包括: - 如何安全地处理可变长度序列的切片,避免索引越界。 - 在 review 讨论中,权衡了填充方案与索引检查方案的优缺点,最终选择了更轻量级的修复方式。 - 可作为处理类似数据预处理边界问题的参考案例。

缺陷修复 重要性 5.52 洞察度 4.00

修复 Megatron Actor 训练中忽略 calculate_entropy 配置的问题,使其与 dp_actor 行为一致。

megatron trainer misc

该 PR 值得精读,特别是对于负责 Megatron 训练模块或配置系统的工程师。关注点包括:1) 如何通过 `self.config.get` 安全地处理可能缺失的配置键;2) 熵指标记录与损失计算解耦的设计,这体现了监控与优化目标分离的良好实践;3) 修复如何确保向后兼容性,不影响现有用户。

2026-04-15

#5989 [megatron] fix: add missing FP8 padding for router replay

作者 eternally-z · 合并时间 2026-04-15 22:01

缺陷修复 重要性 6.01 洞察度 4.00

修复Megatron路由器重放路径缺失FP8填充逻辑,确保FP8训练结果正确。

megatron trainer misc perf

该PR值得精读,特别是关注FP8配置如何集成到现有路由器重放流程中。值得关注的设计决策包括: 1. 通过`tf_config.fp8 in ["e4m3", "hybrid"]`判断是否启用FP8填充,这反映了项目对FP8训练模式的标准化处理。 2. 将填充参数统一传递给预处理函数,展示了配置参数在数据流水线中的传递模式。 建议结合review评论思考安全性和性能的潜在改进空间。

#6005 [megatron] fix: update patch for MLA flashattn forward

作者 HollowMan6 · 合并时间 2026-04-15 12:26

缺陷修复 重要性 6.29 洞察度 6.00

更新Megatron MLA前向补丁逻辑,使其在mcore版本≥0.16.2时可选应用。

megatron trainer misc perf

该PR值得精读,尤其是`patch_forward`函数中THD打包序列逻辑的重构,展示了如何优雅地处理查询与值头维度不同的边缘情况。关注作者对DSA变体排除逻辑的决策,这反映了对代码上下文的深度理解。

2026-04-10

#5895 [megatron] fix: MTP loss deadlock when using context parallelism

作者 xhx1022 · 合并时间 2026-04-10 17:15

缺陷修复 重要性 5.00 洞察度 5.00

修复Megatron MTP损失在上下文并行(CP>1)时的死锁问题。

megatron trainer npu

该PR值得精读,尤其是对于使用Megatron进行分布式训练的工程师。关注点在于:1. 死锁根因分析(CP rank参与all_reduce的必要性)。2. 设计权衡:通过分离参与all_reduce和写入指标的逻辑,既解决死锁又保持指标一致性。3. review中关于防御性编程的讨论,展示了实际工程中条件判断的边界考量。