← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

misc · 79

trainer · 64

rollout · 35

megatron · 32

npu · 31

ci · 27

model · 24

perf · 17

vllm · 16

doc · 14

examples · 14

fsdp · 12

config · 11

worker · 10

docker · 9

distillation · 7

experimental · 7

fully_async · 7

lora · 6

algo · 5

deps · 5

quantization · 5

sglang · 5

tool · 5

ckpt · 4

diffusion · 4

reward · 4

agent_loop · 3

trtllm · 3

veomni · 3

data · 2

teacher · 2

one_step_off · 1

transferqueue · 1

聚合结果

perf 相关 PR

2026-04-15

#5989 [megatron] fix: add missing FP8 padding for router replay

作者 eternally-z · 合并时间 2026-04-15 22:01

缺陷修复重要性 6.01 洞察度 4.00

修复Megatron路由器重放路径缺失FP8填充逻辑，确保FP8训练结果正确。

megatron trainer misc perf

该PR值得精读，特别是关注FP8配置如何集成到现有路由器重放流程中。值得关注的设计决策包括： 1. 通过`tf_config.fp8 in ["e4m3", "hybrid"]`判断是否启用FP8填充，这反映了项目对FP8训练模式的标准化处理。 2. 将填充参数统一传递给预处理函数，展示了配置参数在数据流水线中的传递模式。建议结合review评论思考安全性和性能的潜在改进空间。

查看完整分析 GitHub 原始 PR

#5900 [veomni] feat: bump veomni to v0.1.8

作者 deerlu · 合并时间 2026-04-15 17:13

功能重要性 7.61 洞察度 6.00

升级VeOmni至v0.1.8，修复并行参数并新增打包序列Flash Attention预处理。

veomni trainer perf misc

建议工程师精读此PR，重点关注`_prepare_veomni_flash_attention_kwargs`函数的实现细节和设备处理，以及配置自动重写机制的设计决策，这些对理解VeOmni集成和序列并行优化有参考价值。

查看完整分析 GitHub 原始 PR

#6005 [megatron] fix: update patch for MLA flashattn forward

作者 HollowMan6 · 合并时间 2026-04-15 12:26

缺陷修复重要性 6.29 洞察度 6.00

更新Megatron MLA前向补丁逻辑，使其在mcore版本≥0.16.2时可选应用。

megatron trainer misc perf

该PR值得精读，尤其是`patch_forward`函数中THD打包序列逻辑的重构，展示了如何优雅地处理查询与值头维度不同的边缘情况。关注作者对DSA变体排除逻辑的决策，这反映了对代码上下文的深度理解。

查看完整分析 GitHub 原始 PR

2026-04-14

#6004 [doc] feat: move msprobe to ascend_tutorial

作者 tardis-key · 合并时间 2026-04-14 16:53

文档重要性 2.00 洞察度 2.00

将 PrecisionDebugger 文档移动到 ascend_tutorial 目录并简化配置示例。

doc npu perf

该 PR 变更简单，主要涉及文档整理，无需深入精读。建议关注配置简化的合理性，并确认 summary_mode 变更是否与近期 PR（如 #5986）的 PrecisionDebugger 改进一致。

查看完整分析 GitHub 原始 PR

#5986 [perf] feat: simplify precision_debugger config behavior and docs

作者 Tjh-UKN · 合并时间 2026-04-14 15:52

性能优化重要性 6.00 洞察度 5.00

简化 PrecisionDebugger 配置，统一使用全局 profiler 控制步骤和保存路径。

perf doc trainer npu

该 PR 值得精读，重点关注配置简化设计如何统一 profiler 控制。推荐关注 PrecisionDebuggerToolConfig 类的变更和 PrecisionDebuggerProfiler 中路径与步骤逻辑的调整，这些是核心设计决策。对于使用 msprobe 的工程师，应仔细阅读更新后的文档以适应新配置方式。

查看完整分析 GitHub 原始 PR

2026-04-13

#5971 [reward] feat: add compute_score timing metrics to agent loop

作者 Stonesjtu · 合并时间 2026-04-13 18:34

功能重要性 5.00 洞察度 4.00

为agent loop新增奖励计算耗时指标，用于定位训练瓶颈。

reward perf agent_loop

该PR值得快速浏览，可作为性能监控指标添加的参考模板。重点关注：1. simple_timer的使用模式；2. 数据类字段扩展的向后兼容设计；3. slowest样本索引的多指标聚合逻辑修正。

查看完整分析 GitHub 原始 PR

2026-04-10

#5401 [trainer] feat: add new trainer with TranferQueue

作者 wuxibin89 · 合并时间 2026-04-10 12:15

功能重要性 7.00 洞察度 6.00

新增同步PPO训练器，通过TransferQueue解耦数据流以提升大规模训练性能。

trainer rollout perf transferqueue

该PR值得精读，特别是新训练器架构和TransferQueue集成设计。关注点包括：控制流与数据流解耦的实现、KVBatchMeta的使用、tqbridge装饰器的工作机制。建议工程师学习其性能优化技巧，但需注意review中提出的未解决问题。

查看完整分析 GitHub 原始 PR

2026-04-09

#5934 [vllm] fix: remove redudant clone in weight refit

作者 wuxibin89 · 合并时间 2026-04-09 19:49

缺陷修复重要性 5.00 洞察度 6.00

修复vLLM权重重配中的冗余克隆和竞态条件，并启用编码器缓存重置。

vllm rollout perf npu

建议精读`bucketed_weight_transfer.py`的变更，重点关注竞态条件修复的实现逻辑。对于涉及vLLM权重传输或colocate模式开发的工程师，此PR展示了缓冲区同步和版本条件处理的设计决策，值得学习。

查看完整分析 GitHub 原始 PR

第 1 / 3 页 · 共 17 条

1 2 3 下一页