← 返回仓库列表

THUDM/slime

slime is an LLM post-training framework for RL Scaling.

监控状态：已开启最近同步：2026-04-18 18:18 同步状态：空闲下次计划：2026-04-18 19:18

PR 列表

已合并 52 · 已分析 52

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-07

#1809 fix missing position_ids in log-prob forward step

作者 znculee · 合并时间 2026-04-07 12:26

缺陷修复重要性 4.00 洞察度 3.00

修复GPT模型前向传播中position_ids参数缺失导致的TypeError。

该PR值得快速浏览以了解回归修复模式。关注点： 1. 学习如何通过添加默认参数（position_ids: None）解决前向签名不匹配问题。 2. 结合PR #1807分析重构引入的副作用，理解Megatron模型前向参数构建的演进。 3. 对于涉及核心训练路径的变更，建议补充单元测试以避免类似回归。

查看完整分析 GitHub 原始 PR bugfixconfigurationmultimodal

#1750 feat: add npu patch for qwen3-vl-8b grpo & ppo

作者 cjy0x · 合并时间 2026-04-07 11:19

功能重要性 7.00 洞察度 5.00

添加NPU补丁以支持Qwen3-VL-8B模型的GRPO和PPO训练。

该PR值得精读，特别是对于涉及硬件适配或多模态训练的工程师。重点关注： 1. `slime.patch`中的资源分配逻辑变更，如Ray API替换，这可能影响分布式训练稳定性。 2. 补丁中的手动代码替换（如cuda→npu），需理解其背后的兼容性设计决策。 3. 环境配置和版本依赖，以评估部署可行性。建议结合README.md进行实操验证。

查看完整分析 GitHub 原始 PR featureconfigurationdocker

2026-04-05

#1807 sync from internal

作者 zhuzilin · 合并时间 2026-04-05 18:11

重构重要性 4.00 洞察度 5.00

重构Megatron模型forward参数构建逻辑，提升多模态训练兼容性。

该PR值得精读，尤其是关注forward_kwargs字典构建模式的设计决策。这种重构提升了代码可维护性，并为多模态输入扩展提供了更清晰的接口。建议结合PR #1760（多模态OPD支持）理解上下文。

查看完整分析 GitHub 原始 PR configurationmultimodalperformance

#1805 sync from internal

作者 zhuzilin · 合并时间 2026-04-05 10:27

功能重要性 7.00 洞察度 6.00

同步内部代码，优化多模态模型支持和 SGLang rollout 数据并行平衡。

建议工程师精读以下部分： - slime/backends/megatron_utils/model_provider.py 中的可调用 spec 处理，了解如何扩展模型支持以适配新架构。 - slime/rollout/sglang_rollout.py 的 dp_rank_context 实现，学习负载均衡设计模式。关注风险点，确保在测试环境中验证新功能，并考虑补充相关单元测试。

查看完整分析 GitHub 原始 PR bugfixfeaturemultimodal

2026-04-04

#1788 [WIP] fix loss oom

作者 lilei199908 · 合并时间 2026-04-04 23:41

缺陷修复重要性 6.00 洞察度 6.00

修复损失计算内存溢出，优化PPO熵计算和Megatron损失路径。

建议工程师精读此PR，特别是熵梯度控制设计和checkpointing优化，这些是内存优化中的常见技巧。同时关注Copilot指出的潜在正确性问题，以确保变更不影响训练稳定性。

查看完整分析 GitHub 原始 PR bugfixperformanceconfiguration

2026-04-03

#1764 Add host memory metrics to available_memory function

作者 peterjc123 · 合并时间 2026-04-03 11:52

功能重要性 4.00 洞察度 3.00

在内存监控函数中添加主机内存指标，增强系统资源可见性。

该PR值得快速浏览以了解内存监控功能的扩展。关注点包括：新增依赖的管理、字段命名的一致性，以及是否需要在其他工具（如日志或指标收集）中集成这些新指标。对于涉及资源监控的开发者，此变更提供了有用的参考。

查看完整分析 GitHub 原始 PR metricsconfigurationfeature

#1791 fix(geo3k-vlm-sft): remove --apply-chat-template from SFT launch script

作者 DongzhuoranZhou · 合并时间 2026-04-03 11:50

缺陷修复重要性 3.00 洞察度 3.00

修复Geo3K VLM SFT启动脚本中--apply-chat-template参数导致的类型错误。

该PR变更简单直接，适合快速浏览以了解SFT数据流中的参数处理问题。对于从事VLM SFT或类似训练脚本开发的工程师，值得关注消息格式在训练流水线中的传递一致性。

查看完整分析 GitHub 原始 PR bugfixconfigurationmultimodal

#1799 fix qwen3.5 397B converting error when enable expert parallel

作者 xutianming · 合并时间 2026-04-03 11:49

缺陷修复重要性 5.00 洞察度 4.00

修复Qwen3.5 397B模型在启用专家并行时权重转换错误。

该PR值得精读，特别是对于处理大模型专家并行权重的开发者。关注点：1. 如何从权重名称中提取本地专家ID；2. 如何结合EP上下文计算全局ID；3. 确保HF张量形状与EP配置匹配的设计决策。建议补充测试用例以验证修复。

查看完整分析 GitHub 原始 PR bugfixconfigurationmultimodal

第 2 / 7 页 · 共 52 条

上一页 1 2 3 4 5 6 7 下一页

支持 Prhub ♥

THUDM/slime

PR 列表

#1809 fix missing position_ids in log-prob forward step

#1750 feat: add npu patch for qwen3-vl-8b grpo & ppo

#1807 sync from internal

#1805 sync from internal

#1788 [WIP] fix loss oom

#1764 Add host memory metrics to available_memory function

#1791 fix(geo3k-vlm-sft): remove --apply-chat-template from SFT launch script

#1799 fix qwen3.5 397B converting error when enable expert parallel

参与讨论