← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

misc · 79

trainer · 64

rollout · 35

megatron · 32

npu · 31

ci · 27

model · 24

perf · 17

vllm · 16

doc · 14

examples · 14

fsdp · 12

config · 11

worker · 10

docker · 9

distillation · 7

experimental · 7

fully_async · 7

lora · 6

algo · 5

deps · 5

quantization · 5

sglang · 5

tool · 5

ckpt · 4

diffusion · 4

reward · 4

agent_loop · 3

trtllm · 3

veomni · 3

data · 2

teacher · 2

one_step_off · 1

transferqueue · 1

聚合结果

megatron 相关 PR

2026-04-17

#6046 [fully_async] fix: preserve per-iteration routed_experts on partial rollout resume

作者 NoonePauseferg · 合并时间 2026-04-17 22:01

缺陷修复重要性 6.23 洞察度 6.00

修复完全异步训练中部分rollout恢复时routed_experts拼接错误，确保路由专家与生成模型版本一致。

fully_async rollout experimental megatron

该PR值得精读，特别是对于从事异步训练和MoE模型开发的工程师。关注点包括：1) 如何在部分rollout中处理模型版本差异；2) 路由专家拼接的设计决策（切片而非替换）；3) review中关于张量类型的讨论，展示了实际环境中数据类型的保证。

查看完整分析 GitHub 原始 PR

#6029 [fully_async] fix: replace routed_experts on partial rollout resume i…

作者 NoonePauseferg · 合并时间 2026-04-17 10:42

缺陷修复重要性 5.66 洞察度 6.00

修复完全异步策略中部分rollout恢复时MoE路由专家重复拼接导致的训练不稳定问题。

fully_async rollout experimental megatron

该PR值得精读，它揭示了在异步训练中处理路由专家数据时的关键设计决策：直接替换而非拼接，以确保路由与权重版本一致。关注作者与reviewer关于路由切片方案的讨论，以及实验结果的权衡。

查看完整分析 GitHub 原始 PR

2026-04-16

#6012 [fully_async] fix: add fully async grpo qwen3-235b npu script in main branch

作者 wangshuyang31 · 合并时间 2026-04-16 21:03

缺陷修复重要性 5.30 洞察度 3.00

新增 Qwen3-235B 完全异步 GRPO NPU 训练脚本并修复引擎补丁问题。

fully_async npu trainer megatron examples

建议工程师在类似 NPU 环境部署时参考此脚本的参数配置，并关注 `override_transformer_config` 修复以确保补丁应用正确性；该 PR 值得快速浏览以了解 fully_async 训练扩展。

查看完整分析 GitHub 原始 PR

#6001 [data] fix: pad data in preprocess_packed_seqs if shorter than align_size

作者 beirong8kmiles · 合并时间 2026-04-16 16:04

缺陷修复重要性 5.91 洞察度 4.00

修复序列预处理中数据长度不足导致的索引越界问题，确保上下文并行切片安全。

data megatron misc

该 PR 值得精读，因为它展示了在分布式训练中处理数据对齐和边界条件的典型模式。关注点包括： - 如何安全地处理可变长度序列的切片，避免索引越界。 - 在 review 讨论中，权衡了填充方案与索引检查方案的优缺点，最终选择了更轻量级的修复方式。 - 可作为处理类似数据预处理边界问题的参考案例。

查看完整分析 GitHub 原始 PR

#6016 [megatron, trainer] fix: respect calculate_entropy config in megatron actor update

作者 MaxwellJryao · 合并时间 2026-04-16 14:04

缺陷修复重要性 5.52 洞察度 4.00

修复 Megatron Actor 训练中忽略 calculate_entropy 配置的问题，使其与 dp_actor 行为一致。

megatron trainer misc

该 PR 值得精读，特别是对于负责 Megatron 训练模块或配置系统的工程师。关注点包括：1) 如何通过 `self.config.get` 安全地处理可能缺失的配置键；2) 熵指标记录与损失计算解耦的设计，这体现了监控与优化目标分离的良好实践；3) 修复如何确保向后兼容性，不影响现有用户。

查看完整分析 GitHub 原始 PR

2026-04-15

#5989 [megatron] fix: add missing FP8 padding for router replay

作者 eternally-z · 合并时间 2026-04-15 22:01

缺陷修复重要性 6.01 洞察度 4.00

修复Megatron路由器重放路径缺失FP8填充逻辑，确保FP8训练结果正确。

megatron trainer misc perf

该PR值得精读，特别是关注FP8配置如何集成到现有路由器重放流程中。值得关注的设计决策包括： 1. 通过`tf_config.fp8 in ["e4m3", "hybrid"]`判断是否启用FP8填充，这反映了项目对FP8训练模式的标准化处理。 2. 将填充参数统一传递给预处理函数，展示了配置参数在数据流水线中的传递模式。建议结合review评论思考安全性和性能的潜在改进空间。

查看完整分析 GitHub 原始 PR

#6005 [megatron] fix: update patch for MLA flashattn forward

作者 HollowMan6 · 合并时间 2026-04-15 12:26

缺陷修复重要性 6.29 洞察度 6.00

更新Megatron MLA前向补丁逻辑，使其在mcore版本≥0.16.2时可选应用。

megatron trainer misc perf

该PR值得精读，尤其是`patch_forward`函数中THD打包序列逻辑的重构，展示了如何优雅地处理查询与值头维度不同的边缘情况。关注作者对DSA变体排除逻辑的决策，这反映了对代码上下文的深度理解。

查看完整分析 GitHub 原始 PR

2026-04-10

#5895 [megatron] fix: MTP loss deadlock when using context parallelism

作者 xhx1022 · 合并时间 2026-04-10 17:15

缺陷修复重要性 5.00 洞察度 5.00

修复Megatron MTP损失在上下文并行（CP>1）时的死锁问题。

megatron trainer npu

该PR值得精读，尤其是对于使用Megatron进行分布式训练的工程师。关注点在于：1. 死锁根因分析（CP rank参与all_reduce的必要性）。2. 设计权衡：通过分离参与all_reduce和写入指标的逻辑，既解决死锁又保持指标一致性。3. review中关于防御性编程的讨论，展示了实际工程中条件判断的边界考量。

查看完整分析 GitHub 原始 PR

第 1 / 4 页 · 共 32 条

1 2 3 4 下一页