← 返回仓库列表

THUDM/slime

slime is an LLM post-training framework for RL Scaling.

监控状态：已开启最近同步：2026-04-18 18:18 同步状态：空闲下次计划：2026-04-18 19:18

PR 列表

已合并 52 · 已分析 52

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-03

#1797 pass critic role through to create RayTrainGroup

作者 znculee · 合并时间 2026-04-03 09:11

缺陷修复重要性 3.00 洞察度 2.00

修复创建critic训练组时未正确传递role参数的问题。

该PR变更简单直接，无需深入精读。值得关注的是修复依据来自代码注释，体现了对代码预期的遵循。对于理解slime中actor/critic角色分配机制有帮助。

查看完整分析 GitHub 原始 PR bugfixconfiguration

2026-03-29

#1777 [release] bump to v0.2.4

作者 zhuzilin · 合并时间 2026-03-29 20:17

基础设施重要性 5.00 洞察度 3.00

发布新版本v0.2.4，更新megatron和sglang patch文件。

对于技术管理者，此PR是例行发布，建议关注megatron.patch中的设计变更，确保旋转位置编码逻辑正确。工程师可精读patch文件以理解底层优化，并验证相关功能。

查看完整分析 GitHub 原始 PR dependencyconfigurationdocker

#1741 (fix):not have encoder_only attr cause run failed

作者 wangyufak · 合并时间 2026-03-29 13:47

缺陷修复重要性 4.00 洞察度 3.00

修复sglang引擎启动时因encoder_only属性缺失导致的AttributeError错误。

该PR是典型的bugfix，变更简单直接，无需深入精读。工程师可以关注`launch_server_process`函数的逻辑，了解sglang引擎的服务器启动机制。对于类似属性检查的模式，可作为防御性编程的参考。

查看完整分析 GitHub 原始 PR bugfixconfiguration

#1756 [Fix]Fix some bugs/clean up

作者 coding-famer · 合并时间 2026-03-29 13:46

缺陷修复重要性 5.00 洞察度 4.00

修复HF检查点加载路径错误、清理废弃的多模态数据字段、适配新版Transformers处理器默认行为。

建议工程师快速浏览此PR，重点关注checkpoint加载路径的修正和多模态数据处理的清理。对于从事多模态训练或HF集成开发的成员，值得细读processing_utils.py的变更以理解Transformers库的适配策略。

查看完整分析 GitHub 原始 PR bugfixconfigurationmultimodal

#1759 fix typo

作者 albaNnaksqr · 合并时间 2026-03-29 13:46

文档重要性 1.00 洞察度 1.00

修正了tau-bench示例README中模型名称的拼写错误。

这是一个琐碎的文档修正，对于技术管理者和工程师，无需精读。可以快速浏览以了解变更内容，但无重要设计决策或技术洞察值得关注。

查看完整分析 GitHub 原始 PR docs

#1769 Support FP8 conversion for Qwen3.5

作者 peterjc123 · 合并时间 2026-03-29 13:45

功能重要性 5.00 洞察度 3.00

为 Qwen3.5 模型添加 FP8 转换支持，通过过滤特定权重键名。

建议快速浏览此 PR 以了解 FP8 转换脚本的更新，重点关注新增的过滤条件是否覆盖了 Qwen3.5 模型的所有相关权重。对于维护类似转换逻辑或处理模型适配的工程师，可参考此变更来设计对其他模型的扩展。

查看完整分析 GitHub 原始 PR featureperformanceconfiguration

#1775 [Fix] Fix duplicate Megatron LR scheduler resume when optimizer state is not loaded

作者 kaysonyu · 合并时间 2026-03-29 13:45

缺陷修复重要性 5.00 洞察度 3.00

修复Megatron LR scheduler重复恢复导致学习率错误的bug。

该PR变更简单直接，值得快速审阅以确认修复逻辑正确。对于负责megatron_utils模块或涉及LR调度的工程师，这是必要的bugfix，可关注Megatron恢复机制的依赖关系。

查看完整分析 GitHub 原始 PR bugfixperformanceconfiguration

#1776 Add rollout trace timeline viewer

作者 zhuzilin · 合并时间 2026-03-29 01:16

功能重要性 6.00 洞察度 6.00

新增rollout trace时间线查看器，支持离线分析SGLang生成和奖励模型span事件。

此PR值得精读，特别是对于关注调试、性能优化和SGLang集成的工程师。值得关注的设计决策包括trace span上下文管理、PD时间分解的可视化处理，以及模块化工具设计，这些展示了优雅的代码组织方式。

查看完整分析 GitHub 原始 PR featuredocsmetrics

第 3 / 7 页 · 共 52 条

上一页 1 2 3 4 5 6 7 下一页

支持 Prhub ♥