#5909 [trainer,perf] fix: enable profiler for SFT trainer
作者 wuxibin89 · 合并时间 2026-04-09 09:54
为SFT训练器启用性能分析器并修复Megatron后端LoRA训练问题。
建议技术管理者关注数据集处理和分布式设置的风险点,工程师应精读`transformer_impl.py`中的LoRA权重同步逻辑和`engine_workers.py`的性能分析注解实现,以理解设计决策和潜在问题。
标签列表
聚合结果
作者 wuxibin89 · 合并时间 2026-04-09 09:54
为SFT训练器启用性能分析器并修复Megatron后端LoRA训练问题。
建议技术管理者关注数据集处理和分布式设置的风险点,工程师应精读`transformer_impl.py`中的LoRA权重同步逻辑和`engine_workers.py`的性能分析注解实现,以理解设计决策和潜在问题。
作者 wuxibin89 · 合并时间 2026-04-02 22:58
统一PPO训练器配置,通过model_engine参数替代独立Megatron配置文件
该PR值得精读,因为它是配置系统的重大重构,涉及设计决策如model_engine参数的使用和配置分层。建议关注review中指出的风险点,检查配置迁移指南或文档更新,并验证Megatron工作流的兼容性。
作者 HollowMan6 · 合并时间 2026-04-01 18:31
在README中添加verl在PyTorch Conference Europe 2026展示Megatron后端LoRA和router replay支持的新闻条目。
该PR是简单的文档更新,无需精读。对于技术管理者,可关注项目在大型会议上的曝光,这反映了项目在Megatron后端、LoRA和router replay等领域的进展。对于工程师,无特定设计决策值得关注。
作者 cavities12 · 合并时间 2026-03-31 14:57
修复SGLang rollout中LoRA适配器路径的权重同步顺序和内存释放问题。
建议精读engine_workers.py中的update_weights方法,关注base_sync_done逻辑调整和两阶段同步设计,这体现了SGLang与vLLM后端在LoRA处理上的重要差异。同时,review讨论中的跨后端兼容性权衡值得关注。
作者 HollowMan6 · 合并时间 2026-03-26 16:21
为 Megatron 模块添加检查点保存为 Hugging Face PEFT 格式的功能。
建议阅读 megatron_checkpoint_manager.py 和 megatron_utils.py 中的修改,关注如何处理 PEFT 状态字典、私有 API 使用以及向后兼容性设计。设计决策值得学习,尤其是向标准 API 迁移的策略和风险管理。
作者 FrankHo-Hwc · 合并时间 2026-03-25 19:32
修复 LoRA 模型合并器中字符串 task_type 导致的 AttributeError。
该 PR 值得精读,因为它展示了在兼容性修复中如何处理类型检查和错误处理,尤其关注 review 反馈对 falsy 值行为的讨论,这对于类似场景的设计决策有参考价值。