Prhub
← 返回仓库详情

标签聚合

THUDM/slime · 标签视图

标签列表

聚合结果

performance 相关 PR

2026-04-09

#1823 Add fallback for get_seqlen_balanced_partitions

作者 zhuzilin · 合并时间 2026-04-09 20:29

缺陷修复 重要性 5.00 洞察度 4.00

为序列长度平衡分区添加后备机制,防止分区超出GPU内存限制。

bugfix configuration performance

该PR值得精读,特别是关注_get_capped_partitions算法的设计决策(first-fit与令牌上限)以及VPP microbatches计算调整的逻辑。建议工程师在涉及VPP或长序列训练时验证后备机制的有效性,并考虑补充单元测试以覆盖边界情况。

#1822 Revert no_grad for entropy to prevent comm stuck in dsa

作者 zhuzilin · 合并时间 2026-04-09 19:20

缺陷修复 重要性 5.00 洞察度 4.00

移除熵计算中的no_grad上下文,修复DSA模式下通信卡死问题。

bugfix configuration performance

建议技术管理者和核心工程师精读此PR,重点关注: 1. 熵计算梯度保留的设计决策,理解DSA通信机制的特殊要求。 2. 分布式张量重建逻辑中对None值的处理方式,确保边缘场景覆盖。 3. 结合近期PR #1788(修复loss oom)和 #1762(修复grad_norm初始化)一起分析,这些PR都涉及损失计算和梯度处理的底层优化。

2026-04-07

#1762 [Fix] Initialize grad_norm before found_inf skip path

作者 kaysonyu · 合并时间 2026-04-07 14:59

缺陷修复 重要性 4.00 洞察度 3.00

修复Megatron训练中found_inf=True时grad_norm未初始化导致的UnboundLocalError。

bugfix configuration performance

该PR变更简单直接,适合快速浏览以了解Megatron训练中异常处理机制。值得关注的是,它揭示了梯度检查与训练步骤之间的耦合关系,以及如何通过变量初始化避免边界条件错误。对于维护类似训练循环的工程师有参考价值。

2026-04-05

#1807 sync from internal

作者 zhuzilin · 合并时间 2026-04-05 18:11

重构 重要性 4.00 洞察度 5.00

重构Megatron模型forward参数构建逻辑,提升多模态训练兼容性。

configuration multimodal performance

该PR值得精读,尤其是关注forward_kwargs字典构建模式的设计决策。这种重构提升了代码可维护性,并为多模态输入扩展提供了更清晰的接口。建议结合PR #1760(多模态OPD支持)理解上下文。

#1805 sync from internal

作者 zhuzilin · 合并时间 2026-04-05 10:27

功能 重要性 7.00 洞察度 6.00

同步内部代码,优化多模态模型支持和 SGLang rollout 数据并行平衡。

bugfix feature multimodal performance

建议工程师精读以下部分: - slime/backends/megatron_utils/model_provider.py 中的可调用 spec 处理,了解如何扩展模型支持以适配新架构。 - slime/rollout/sglang_rollout.py 的 dp_rank_context 实现,学习负载均衡设计模式。 关注风险点,确保在测试环境中验证新功能,并考虑补充相关单元测试。

2026-04-04

#1788 [WIP] fix loss oom

作者 lilei199908 · 合并时间 2026-04-04 23:41

缺陷修复 重要性 6.00 洞察度 6.00

修复损失计算内存溢出,优化PPO熵计算和Megatron损失路径。

bugfix performance configuration

建议工程师精读此PR,特别是熵梯度控制设计和checkpointing优化,这些是内存优化中的常见技巧。同时关注Copilot指出的潜在正确性问题,以确保变更不影响训练稳定性。

2026-03-29

#1769 Support FP8 conversion for Qwen3.5

作者 peterjc123 · 合并时间 2026-03-29 13:45

功能 重要性 5.00 洞察度 3.00

为 Qwen3.5 模型添加 FP8 转换支持,通过过滤特定权重键名。

feature performance configuration

建议快速浏览此 PR 以了解 FP8 转换脚本的更新,重点关注新增的过滤条件是否覆盖了 Qwen3.5 模型的所有相关权重。对于维护类似转换逻辑或处理模型适配的工程师,可参考此变更来设计对其他模型的扩展。

缺陷修复 重要性 5.00 洞察度 3.00

修复Megatron LR scheduler重复恢复导致学习率错误的bug。

bugfix performance configuration

该PR变更简单直接,值得快速审阅以确认修复逻辑正确。对于负责megatron_utils模块或涉及LR调度的工程师,这是必要的bugfix,可关注Megatron恢复机制的依赖关系。