← 返回仓库列表

verl-project/verl

verl: Volcano Engine Reinforcement Learning for LLMs

监控状态：已开启最近同步：2026-04-18 19:13 同步状态：空闲下次计划：2026-04-18 20:13

PR 列表

已合并 143 · 已分析 143

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-10

#5596 [docker] feat: Add GB200 (aarch64/Blackwell) Docker image and training example

作者 kaixih · 合并时间 2026-04-10 11:23

功能重要性 6.00 洞察度 6.00

为GB200（aarch64/Blackwell）添加Docker镜像和训练示例，扩展硬件支持并适配测试。

建议技术管理者和工程师精读此PR，重点关注Dockerfile多架构设计决策（如统一x86_64/aarch64支持）、测试动态适配策略（使用`torch.cuda.device_count()`）以及硬件特定配置（如Blackwell的FlashAttention限制）。讨论中的设计权衡，如Dockerfile合并过程和依赖版本管理，也值得借鉴。

查看完整分析 GitHub 原始 PR dockertrainerexamples

#5936 [sglang] fix: sglang empty result problem

作者 Begunner · 合并时间 2026-04-10 10:25

缺陷修复重要性 5.00 洞察度 6.00

修复SGLang服务器返回空结果时导致的ValueError，增强日志概率提取的健壮性。

该PR值得精读，展示了如何处理外部服务（SGLang）返回数据不一致的防御性编程模式，特别是assert用于快速失败的设计决策。关注generate函数中meta_info获取和日志概率提取的重构逻辑。

查看完整分析 GitHub 原始 PR sglangrolloutmisc

#5945 [megatron] fix: Adjust the attention mask shape for VLM with Megatron on NPU

作者 ZLiao097 · 合并时间 2026-04-10 10:19

缺陷修复重要性 5.00 洞察度 4.00

修复VLM+Megatron在NPU环境下的注意力掩码形状适配问题，提升NPU兼容性。

建议精读此PR以了解VLM在Megatron框架下的掩码处理机制，特别是NPU环境的特殊适配。关注`build_vlm_attn_mask_bshd`函数中的序列长度对齐逻辑，这对理解分布式训练中的张量并行和上下文并行至关重要。

查看完整分析 GitHub 原始 PR megatronmodelnpu

2026-04-09

#5868 [sglang] fix: Adapting the use of _launch_subprocesses to the latest SGLang branch

作者 xiazhahe · 合并时间 2026-04-09 20:56

fix 重要性 4.00 洞察度 3.00

适配SGLang最新分支的_launch_subprocesses函数调用方式，确保向后兼容。

该PR值得快速浏览，特别是关注版本检测和导入逻辑的设计。对于维护sglang集成的工程师，可以学习这种通过版本检测实现向后兼容的模式。虽然变更较小，但展示了对外部依赖API变更的适配策略。

查看完整分析 GitHub 原始 PR sglangrolloutmisc

#5930 [ci] chore: add nightly npu docker for v0.7.1

作者 yyyy2000 · 合并时间 2026-04-09 19:53

基础设施重要性 4.00 洞察度 3.00

新增v0.7.1版本的NPU Docker镜像并集成到CI工作流中。

对于负责NPU基础设施、CI/CD或Docker镜像管理的工程师，建议阅读此PR以了解新镜像的构建细节和潜在设计缺陷。关注review中指出的问题，可能需要后续修复以确保环境稳定性和构建可靠性。

查看完整分析 GitHub 原始 PR cinpudocker

#5934 [vllm] fix: remove redudant clone in weight refit

作者 wuxibin89 · 合并时间 2026-04-09 19:49

缺陷修复重要性 5.00 洞察度 6.00

修复vLLM权重重配中的冗余克隆和竞态条件，并启用编码器缓存重置。

建议精读`bucketed_weight_transfer.py`的变更，重点关注竞态条件修复的实现逻辑。对于涉及vLLM权重传输或colocate模式开发的工程师，此PR展示了缓冲区同步和版本条件处理的设计决策，值得学习。

查看完整分析 GitHub 原始 PR vllmrolloutperf

#5942 Revert "[megatron] fix: Adjust the attention mask shape for VLM with Megatron on NPU"

作者 wuxibin89 · 合并时间 2026-04-09 16:08

缺陷修复重要性 6.00 洞察度 4.00

回滚VLM+Megatron在NPU上的注意力掩码形状修复，恢复原有逻辑。

该PR值得关注，因为它回滚了一个重要的NPU适配修复，可能揭示了底层兼容性问题。建议精读以理解回滚的具体变更，并关注后续是否有替代修复。同时，review中提到的性能优化建议（向量化掩码创建）值得在未来的重构中考虑。

查看完整分析 GitHub 原始 PR megatronmodelnpu

#5759 [ci] chore: add vllm_ascend.yaml

作者 Annarine · 合并时间 2026-04-09 15:13

基础设施重要性 6.00 洞察度 5.00

新增针对 Ascend NPU 的 vLLM CI 测试工作流，提升 vLLM 在 NPU 环境的验证能力。

建议关注以下两点： 1. **对于 CI/基础设施开发者**：此 PR 新增的 `vllm_ascend.yml` 工作流设计值得精读，特别是其路径排除策略和 NPU 专用资源配置，可作为在 VERL 中新增硬件特定 CI 的参考模板。 2. **对于核心开发者**：`agent_utils.py` 的修改虽小，但引发的 `gemini-code-assist[bot]` 关于设备配置化的讨论具有普遍意义——在测试工具函数中，硬编码设备检测可能限制测试场景。虽未在本 PR 中实施，但未来类似改动可考虑采纳该建议以提升灵活性。

查看完整分析 GitHub 原始 PR cinpuvllm

第 6 / 18 页 · 共 143 条

上一页 1 … 4 5 6 7 8 … 18 下一页

支持 Prhub ♥