← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态：已开启最近同步：2026-04-18 19:13 同步状态：空闲下次计划：2026-04-18 20:13

PR 列表

已合并 143 · 已分析 143

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-09

#5923 [training_utils, hardware] refactor: standardize deterministic environment variables for NCCL and NPU

作者 xuy1234 · 合并时间 2026-04-09 10:55

重构重要性 3.00 洞察度 4.00

标准化NCCL和NPU确定性训练环境变量，删除不存在的NCCL_DETERMINISTIC。

该PR值得快速浏览，以了解环境变量标准化的背景和AI幻觉问题的实际案例。关注点在于enable_full_determinism函数的设计，它统一处理不同硬件后端的确定性设置，体现了跨平台兼容性的考虑。

查看完整分析 GitHub 原始 PR trainernpumisc

#5924 [misc] feat: Update file logger path output to absolute path

作者 vermouth1992 · 合并时间 2026-04-09 10:50

misc 重要性 2.00 洞察度 3.00

将文件日志器输出路径从相对路径改为绝对路径，提升调试便利性。

该PR变更简单，可快速浏览了解路径输出改进。值得关注的是review中暴露的潜在bug，建议后续PR修复目录创建逻辑。

查看完整分析 GitHub 原始 PR misctool

#5909 [trainer,perf] fix: enable profiler for SFT trainer

作者 wuxibin89 · 合并时间 2026-04-09 09:54

缺陷修复重要性 6.00 洞察度 5.00

为SFT训练器启用性能分析器并修复Megatron后端LoRA训练问题。

建议技术管理者关注数据集处理和分布式设置的风险点，工程师应精读`transformer_impl.py`中的LoRA权重同步逻辑和`engine_workers.py`的性能分析注解实现，以理解设计决策和潜在问题。

查看完整分析 GitHub 原始 PR trainerperfmegatron

#5841 [rollout] chore: bump up trtllm image version to 1.3.0rc10

作者 Superjomn · 合并时间 2026-04-09 09:51

其他重要性 6.00 洞察度 5.00

升级TRT-LLM镜像至1.3.0rc10，同步更新Megatron-LM和CI配置以提升兼容性。

建议技术管理者和工程师精读此PR，重点关注Dockerfile的依赖管理策略和`trtllm_async_server.py`中的索引安全修复。设计决策如权重标签的后向兼容性处理值得学习，以应对类似API升级场景。同时，注意review中未解决的DeepEP分支问题，可能需后续跟进以确保构建稳定性。

查看完整分析 GitHub 原始 PR rolloutdockerci

2026-04-08

#5904 [megatron] fix: Adjust the attention mask shape for VLM with Megatron on NPU

作者 ZLiao097 · 合并时间 2026-04-08 19:47

缺陷修复重要性 5.00 洞察度 6.00

修复 VLM+Megatron 在 NPU 上的注意力掩码形状问题，适配 NPU 环境。

该 PR 值得精读，尤其是 NPU 环境下掩码处理的特殊设计（模型前向传 None，后处理保留 2D 掩码），这是硬件适配的典型模式。关注 `build_vlm_attn_mask_*` 函数的实现和 `is_npu_available` 的条件分支。

查看完整分析 GitHub 原始 PR megatronmodelnpu

#5913 [doc] fix: fix non‑compliant sections

作者 fh188 · 合并时间 2026-04-08 17:29

文档重要性 3.00 洞察度 2.00

修复 Ascend 教程文档中的拼写、链接和 shell 语法错误。

对于技术管理者，此 PR 可快速批准以保持文档健康；对于工程师，建议关注 shell 命令修正部分（如反斜杠使用），避免在类似文档中重复错误，并以此为契机审查其他文档的语法。

查看完整分析 GitHub 原始 PR docnpumisc

#5911 [ckpt] fix: load custom_backend_module in CheckpointEngineManager on driver

作者 yangspirit · 合并时间 2026-04-08 16:32

缺陷修复重要性 4.00 洞察度 3.00

修复检查点引擎管理器在driver进程未加载自定义后端模块的bug。

该PR值得快速浏览，了解检查点插件系统的driver-worker一致性设计。关注点：1. import_external_libs函数的设计（未在PR中展示，但推测是统一的外部库导入机制）。2. 与#5718的关联，理解完整的插件钩子实现。

查看完整分析 GitHub 原始 PR ckpttrainermisc

#5908 [doc] chore: Bug fixes for the qwen3-235b model in 256k scenarios

作者 autbuster · 合并时间 2026-04-08 14:40

缺陷修复重要性 4.00 洞察度 3.00

修复Qwen3-235B模型在256K长序列场景下的Megatron并行配置和训练脚本错误。

建议技术管理者关注review中提到的并行配置错误是否已实际解决，并验证修改后的配置在目标硬件上的可运行性。工程师可参考该PR了解大规模模型训练的配置调整模式，但需谨慎评估并行度设置的合理性。

查看完整分析 GitHub 原始 PR megatronexamplestrainer

第 7 / 18 页 · 共 143 条

上一页 1 … 5 6 7 8 9 … 18 下一页

支持 Prhub ♥