← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态：已开启最近同步：2026-04-18 18:11 同步状态：空闲下次计划：2026-04-18 19:11

PR 列表

已合并 143 · 已分析 143

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-16

#6001 [data] fix: pad data in preprocess_packed_seqs if shorter than align_size

作者 beirong8kmiles · 合并时间 2026-04-16 16:04

缺陷修复重要性 5.91 洞察度 4.00

修复序列预处理中数据长度不足导致的索引越界问题，确保上下文并行切片安全。

该 PR 值得精读，因为它展示了在分布式训练中处理数据对齐和边界条件的典型模式。关注点包括： - 如何安全地处理可变长度序列的切片，避免索引越界。 - 在 review 讨论中，权衡了填充方案与索引检查方案的优缺点，最终选择了更轻量级的修复方式。 - 可作为处理类似数据预处理边界问题的参考案例。

查看完整分析 GitHub 原始 PR datamegatronmisc

#6021 [ci] chore: add sglang new version docker for NPU

作者 xiazhahe · 合并时间 2026-04-16 14:15

基础设施重要性 5.32 洞察度 4.00

新增Ascend NPU的SGLang v0.5.10 Dockerfile及配套CI和文档更新。

对于基础设施维护者和NPU用户，此PR值得浏览以了解最新NPU环境配置。建议关注Dockerfile中的安全优化建议，未来可考虑采纳以提高镜像安全性和效率。

查看完整分析 GitHub 原始 PR cinpudocker

#6016 [megatron, trainer] fix: respect calculate_entropy config in megatron actor update

作者 MaxwellJryao · 合并时间 2026-04-16 14:04

缺陷修复重要性 5.52 洞察度 4.00

修复 Megatron Actor 训练中忽略 calculate_entropy 配置的问题，使其与 dp_actor 行为一致。

该 PR 值得精读，特别是对于负责 Megatron 训练模块或配置系统的工程师。关注点包括：1) 如何通过 `self.config.get` 安全地处理可能缺失的配置键；2) 熵指标记录与损失计算解耦的设计，这体现了监控与优化目标分离的良好实践；3) 修复如何确保向后兼容性，不影响现有用户。

查看完整分析 GitHub 原始 PR megatrontrainermisc

2026-04-15

#5989 [megatron] fix: add missing FP8 padding for router replay

作者 eternally-z · 合并时间 2026-04-15 22:01

缺陷修复重要性 6.01 洞察度 4.00

修复Megatron路由器重放路径缺失FP8填充逻辑，确保FP8训练结果正确。

该PR值得精读，特别是关注FP8配置如何集成到现有路由器重放流程中。值得关注的设计决策包括： 1. 通过`tf_config.fp8 in ["e4m3", "hybrid"]`判断是否启用FP8填充，这反映了项目对FP8训练模式的标准化处理。 2. 将填充参数统一传递给预处理函数，展示了配置参数在数据流水线中的传递模式。建议结合review评论思考安全性和性能的潜在改进空间。

查看完整分析 GitHub 原始 PR megatrontrainermisc

#5900 [veomni] feat: bump veomni to v0.1.8

作者 deerlu · 合并时间 2026-04-15 17:13

功能重要性 7.61 洞察度 6.00

升级VeOmni至v0.1.8，修复并行参数并新增打包序列Flash Attention预处理。

建议工程师精读此PR，重点关注`_prepare_veomni_flash_attention_kwargs`函数的实现细节和设备处理，以及配置自动重写机制的设计决策，这些对理解VeOmni集成和序列并行优化有参考价值。

查看完整分析 GitHub 原始 PR veomnitrainerperf

#6005 [megatron] fix: update patch for MLA flashattn forward

作者 HollowMan6 · 合并时间 2026-04-15 12:26

缺陷修复重要性 6.29 洞察度 6.00

更新Megatron MLA前向补丁逻辑，使其在mcore版本≥0.16.2时可选应用。

该PR值得精读，尤其是`patch_forward`函数中THD打包序列逻辑的重构，展示了如何优雅地处理查询与值头维度不同的边缘情况。关注作者对DSA变体排除逻辑的决策，这反映了对代码上下文的深度理解。

查看完整分析 GitHub 原始 PR megatrontrainermisc

#6006 [misc, fully_async] feat: add Qwen3-VL-8B fully async GRPO training script on geo3k

作者 Silas-11 · 合并时间 2026-04-15 10:26

功能重要性 5.32 洞察度 4.00

新增Qwen3-VL-8B模型在geo3k数据集上的完全异步GRPO训练脚本。

该PR值得快速浏览，了解异步训练配置和参数组织方式。建议关注异步特定参数如`staleness_threshold`和`rollout_correction`的设计，以及配置块的组织模式，以复用最佳实践。

查看完整分析 GitHub 原始 PR fully_asyncexamplesnpu

2026-04-14

#6004 [doc] feat: move msprobe to ascend_tutorial

作者 tardis-key · 合并时间 2026-04-14 16:53

文档重要性 2.00 洞察度 2.00

将 PrecisionDebugger 文档移动到 ascend_tutorial 目录并简化配置示例。

该 PR 变更简单，主要涉及文档整理，无需深入精读。建议关注配置简化的合理性，并确认 summary_mode 变更是否与近期 PR（如 #5986）的 PrecisionDebugger 改进一致。

查看完整分析 GitHub 原始 PR docnpuperf

第 3 / 18 页 · 共 143 条

上一页 1 2 3 4 5 … 18 下一页

支持 Prhub ♥

verl-project/verl

PR 列表

#6001 [data] fix: pad data in preprocess_packed_seqs if shorter than align_size

#6021 [ci] chore: add sglang new version docker for NPU

#6016 [megatron, trainer] fix: respect calculate_entropy config in megatron actor update

#5989 [megatron] fix: add missing FP8 padding for router replay

#5900 [veomni] feat: bump veomni to v0.1.8

#6005 [megatron] fix: update patch for MLA flashattn forward

#6006 [misc, fully_async] feat: add Qwen3-VL-8B fully async GRPO training script on geo3k

#6004 [doc] feat: move msprobe to ascend_tutorial

参与讨论