← 返回仓库详情

标签聚合

verl-project/verl · 标签视图

标签列表

misc · 79

trainer · 64

rollout · 35

megatron · 32

npu · 31

ci · 27

model · 24

perf · 17

vllm · 16

doc · 14

examples · 14

fsdp · 12

config · 11

worker · 10

docker · 9

distillation · 7

experimental · 7

fully_async · 7

lora · 6

algo · 5

deps · 5

quantization · 5

sglang · 5

tool · 5

ckpt · 4

diffusion · 4

reward · 4

agent_loop · 3

trtllm · 3

veomni · 3

data · 2

teacher · 2

one_step_off · 1

transferqueue · 1

聚合结果

distillation 相关 PR

2026-04-17

#6041 [rollout] fix: RM sleep/wake teacher replicas

作者 JacobHelwig · 合并时间 2026-04-17 13:44

缺陷修复重要性 4.97 洞察度 3.00

移除教师模型管理器的休眠/唤醒逻辑，简化在线蒸馏流程。

rollout distillation experimental

该PR值得快速浏览，以了解在线蒸馏中教师模型状态管理的简化决策。关注点在于移除休眠/唤醒是否带来性能提升或资源权衡，建议结合近期蒸馏相关PR（如#6039、#5997）理解整体演进方向。

查看完整分析 GitHub 原始 PR

#6039 [trainer, rollout, algo] refactor: Remove OPD colocate mode

作者 JacobHelwig · 合并时间 2026-04-17 13:12

重构重要性 8.91 洞察度 5.00

移除在线策略蒸馏的共置模式，强制使用独立资源池，简化教师模型管理逻辑。

trainer distillation rollout experimental

该 PR 值得精读，尤其是对于涉及蒸馏和资源管理的开发者。关注点包括：教师模型管理器的简化设计、配置契约的变更，以及 review 中提到的序列化优化机会。

查看完整分析 GitHub 原始 PR

#5997 [trainer,algo] feat: Support On-Policy Distillation in `main_ppo_sync`

作者 0oshowero0 · 合并时间 2026-04-17 11:10

功能重要性 7.40 洞察度 6.00

在同步PPO训练器中新增基于资源池的在线策略蒸馏支持，打通教师模型与TQ数据流。

trainer distillation rollout experimental

该PR值得精读，尤其关注其如何将教师模型集成到现有同步训练框架中。设计决策上，优先支持独立资源池模式而非共置模式，这反映了系统架构向解耦和可扩展性发展的方向。建议重点阅读`transferqueue_utils.py`中KVBatchMeta的适配逻辑，以及`main_ppo_sync.py`中资源池初始化和教师管理器唤醒的时序控制。

查看完整分析 GitHub 原始 PR

2026-04-01

#5826 [megatron] feat: support cp for bshd format

作者 wuxibin89 · 合并时间 2026-04-01 10:42

功能重要性 6.00 洞察度 7.00

为bshd格式添加上下文并行支持，优化Megatron引擎序列处理性能。

megatron model perf distillation

建议技术管理者和相关工程师精读此PR，重点关注`util.py`中的序列对齐和梯度流修复设计，这些决策对实现高性能并行处理有借鉴意义。对于使用bshd格式的项目，需测试CP配置以确保兼容性。

查看完整分析 GitHub 原始 PR

2026-03-31

#5824 [single_controller] fix: Set `device_name` for `split_resource_pool` to prevent failure on NPU environments

作者 0oshowero0 · 合并时间 2026-03-31 21:16

缺陷修复重要性 5.00 洞察度 4.00

修复NPU环境下split_resource_pool的设备名设置，避免Ray自动扩展失败。

distillation worker misc

建议关注此PR，以了解如何在Ray actor中正确处理设备检测。对于类似代码，考虑采纳gemini的建议，将设备检测逻辑中心化，并添加相应测试以确保覆盖，以提高代码质量和维护性。

查看完整分析 GitHub 原始 PR

2026-03-26

#5745 [2/2][rollout,trainer] feat: Teacher colocate mode

作者 JacobHelwig · 合并时间 2026-03-26 11:52

功能重要性 6.00 洞察度 7.00

添加教师模型colocate模式，支持在rollout后计算教师logprobs。

trainer rollout teacher distillation

建议技术管理者和工程师精读此PR，特别关注教师logprobs计算路径的设计决策，如stream_teacher_with_rollout标志的使用和批处理实现。同时，检查review中指出的bug是否已在提交历史中妥善解决，并评估测试覆盖是否充分。

查看完整分析 GitHub 原始 PR

2026-03-25

#5723 [1/2][rollout,trainer] refactor: Teacher colocate mode -- Move teacher logprob computation to `AsyncTeacherLLMServerManager`

作者 JacobHelwig · 合并时间 2026-03-25 10:14

重构重要性 6.00 洞察度 5.00

重构教师模型对数概率计算，移动至专用管理器以提升模块化。

teacher distillation

建议技术管理者和工程师精读此PR，关注设计决策如分离关注点、处理循环依赖和初始化顺序修复。重点关注verl/experimental/teacher_loop/teacher_manager.py中新类的实现，以及agent_loop.py中的修改逻辑，以理解重构带来的模块化改进和潜在风险。

查看完整分析 GitHub 原始 PR