← 返回仓库详情

标签聚合

THUDM/slime · 标签视图

标签列表

configuration · 38

bugfix · 29

performance · 16

dependency · 15

multimodal · 12

docker · 9

feature · 8

docs · 6

metrics · 5

shell · 5

wandb · 3

architecture · 2

tools · 1

translation · 1

聚合结果

bugfix 相关 PR

2026-04-16

#1836 [fix] eval sample logging when sample is a list

作者 mathewjhan · 合并时间 2026-04-16 11:14

缺陷修复重要性 4.97 洞察度 3.00

修复多智能体场景下评估日志记录时对列表类型样本的处理错误。

bugfix configuration multimodal

该 PR 值得快速浏览，特别是对于处理多智能体或异步生成场景的开发者。关注点在于如何优雅地处理函数返回类型的多态性，避免硬编码假设。

查看完整分析 GitHub 原始 PR

2026-04-15

#1828 Bugfix: use cpu instead of cuda in convert_torch_dist_to_hf.py when --add-missing-from-origin-hf is set

作者 coding-famer · 合并时间 2026-04-15 14:37

缺陷修复重要性 4.35 洞察度 3.00

修复权重转换工具中补充缺失权重时错误使用CUDA设备的问题。

bugfix configuration tools

该PR代码变更简单明了，适合快速了解权重转换工具的设备处理逻辑。值得关注的是工具设计中设备选择的考量：在离线预处理任务中优先保证兼容性而非性能。

查看完整分析 GitHub 原始 PR

2026-04-09

#1823 Add fallback for get_seqlen_balanced_partitions

作者 zhuzilin · 合并时间 2026-04-09 20:29

缺陷修复重要性 5.00 洞察度 4.00

为序列长度平衡分区添加后备机制，防止分区超出GPU内存限制。

bugfix configuration performance

该PR值得精读，特别是关注_get_capped_partitions算法的设计决策（first-fit与令牌上限）以及VPP microbatches计算调整的逻辑。建议工程师在涉及VPP或长序列训练时验证后备机制的有效性，并考虑补充单元测试以覆盖边界情况。

查看完整分析 GitHub 原始 PR

#1822 Revert no_grad for entropy to prevent comm stuck in dsa

作者 zhuzilin · 合并时间 2026-04-09 19:20

缺陷修复重要性 5.00 洞察度 4.00

移除熵计算中的no_grad上下文，修复DSA模式下通信卡死问题。

bugfix configuration performance

建议技术管理者和核心工程师精读此PR，重点关注： 1. 熵计算梯度保留的设计决策，理解DSA通信机制的特殊要求。 2. 分布式张量重建逻辑中对None值的处理方式，确保边缘场景覆盖。 3. 结合近期PR #1788（修复loss oom）和 #1762（修复grad_norm初始化）一起分析，这些PR都涉及损失计算和梯度处理的底层优化。

查看完整分析 GitHub 原始 PR

2026-04-07

#1762 [Fix] Initialize grad_norm before found_inf skip path

作者 kaysonyu · 合并时间 2026-04-07 14:59

缺陷修复重要性 4.00 洞察度 3.00

修复Megatron训练中found_inf=True时grad_norm未初始化导致的UnboundLocalError。

bugfix configuration performance

该PR变更简单直接，适合快速浏览以了解Megatron训练中异常处理机制。值得关注的是，它揭示了梯度检查与训练步骤之间的耦合关系，以及如何通过变量初始化避免边界条件错误。对于维护类似训练循环的工程师有参考价值。

查看完整分析 GitHub 原始 PR

#1809 fix missing position_ids in log-prob forward step

作者 znculee · 合并时间 2026-04-07 12:26

缺陷修复重要性 4.00 洞察度 3.00

修复GPT模型前向传播中position_ids参数缺失导致的TypeError。

bugfix configuration multimodal

该PR值得快速浏览以了解回归修复模式。关注点： 1. 学习如何通过添加默认参数（position_ids: None）解决前向签名不匹配问题。 2. 结合PR #1807分析重构引入的副作用，理解Megatron模型前向参数构建的演进。 3. 对于涉及核心训练路径的变更，建议补充单元测试以避免类似回归。

查看完整分析 GitHub 原始 PR

2026-04-05

#1805 sync from internal

作者 zhuzilin · 合并时间 2026-04-05 10:27

功能重要性 7.00 洞察度 6.00

同步内部代码，优化多模态模型支持和 SGLang rollout 数据并行平衡。

bugfix feature multimodal performance

建议工程师精读以下部分： - slime/backends/megatron_utils/model_provider.py 中的可调用 spec 处理，了解如何扩展模型支持以适配新架构。 - slime/rollout/sglang_rollout.py 的 dp_rank_context 实现，学习负载均衡设计模式。关注风险点，确保在测试环境中验证新功能，并考虑补充相关单元测试。

查看完整分析 GitHub 原始 PR

2026-04-04

#1788 [WIP] fix loss oom

作者 lilei199908 · 合并时间 2026-04-04 23:41

缺陷修复重要性 6.00 洞察度 6.00

修复损失计算内存溢出，优化PPO熵计算和Megatron损失路径。

bugfix performance configuration

建议工程师精读此PR，特别是熵梯度控制设计和checkpointing优化，这些是内存优化中的常见技巧。同时关注Copilot指出的潜在正确性问题，以确保变更不影响训练稳定性。

查看完整分析 GitHub 原始 PR

第 1 / 4 页 · 共 29 条

1 2 3 4 下一页