Prhub
← 返回仓库列表

THUDM/slime

slime is an LLM post-training framework for RL Scaling.

监控状态:已开启 最近同步:2026-04-18 18:18 同步状态:空闲 下次计划:2026-04-18 19:18

PR 列表

已合并 52 · 已分析 52
更多筛选
2026-04-03
2026-03-29

#1777 [release] bump to v0.2.4

作者 zhuzilin · 合并时间 2026-03-29 20:17

基础设施 重要性 5.00 洞察度 3.00

发布新版本v0.2.4,更新megatron和sglang patch文件。

对于技术管理者,此PR是例行发布,建议关注megatron.patch中的设计变更,确保旋转位置编码逻辑正确。工程师可精读patch文件以理解底层优化,并验证相关功能。

#1741 (fix):not have encoder_only attr cause run failed

作者 wangyufak · 合并时间 2026-03-29 13:47

缺陷修复 重要性 4.00 洞察度 3.00

修复sglang引擎启动时因encoder_only属性缺失导致的AttributeError错误。

该PR是典型的bugfix,变更简单直接,无需深入精读。工程师可以关注`launch_server_process`函数的逻辑,了解sglang引擎的服务器启动机制。对于类似属性检查的模式,可作为防御性编程的参考。

#1756 [Fix]Fix some bugs/clean up

作者 coding-famer · 合并时间 2026-03-29 13:46

缺陷修复 重要性 5.00 洞察度 4.00

修复HF检查点加载路径错误、清理废弃的多模态数据字段、适配新版Transformers处理器默认行为。

建议工程师快速浏览此PR,重点关注checkpoint加载路径的修正和多模态数据处理的清理。对于从事多模态训练或HF集成开发的成员,值得细读processing_utils.py的变更以理解Transformers库的适配策略。

#1759 fix typo

作者 albaNnaksqr · 合并时间 2026-03-29 13:46

文档 重要性 1.00 洞察度 1.00

修正了tau-bench示例README中模型名称的拼写错误。

这是一个琐碎的文档修正,对于技术管理者和工程师,无需精读。可以快速浏览以了解变更内容,但无重要设计决策或技术洞察值得关注。

#1769 Support FP8 conversion for Qwen3.5

作者 peterjc123 · 合并时间 2026-03-29 13:45

功能 重要性 5.00 洞察度 3.00

为 Qwen3.5 模型添加 FP8 转换支持,通过过滤特定权重键名。

建议快速浏览此 PR 以了解 FP8 转换脚本的更新,重点关注新增的过滤条件是否覆盖了 Qwen3.5 模型的所有相关权重。对于维护类似转换逻辑或处理模型适配的工程师,可参考此变更来设计对其他模型的扩展。

缺陷修复 重要性 5.00 洞察度 3.00

修复Megatron LR scheduler重复恢复导致学习率错误的bug。

该PR变更简单直接,值得快速审阅以确认修复逻辑正确。对于负责megatron_utils模块或涉及LR调度的工程师,这是必要的bugfix,可关注Megatron恢复机制的依赖关系。

#1776 Add rollout trace timeline viewer

作者 zhuzilin · 合并时间 2026-03-29 01:16

功能 重要性 6.00 洞察度 6.00

新增rollout trace时间线查看器,支持离线分析SGLang生成和奖励模型span事件。

此PR值得精读,特别是对于关注调试、性能优化和SGLang集成的工程师。值得关注的设计决策包括trace span上下文管理、PD时间分解的可视化处理,以及模块化工具设计,这些展示了优雅的代码组织方式。

参与讨论