Prhub
← 返回仓库列表

THUDM/slime

slime is an LLM post-training framework for RL Scaling.

监控状态:已开启 最近同步:2026-04-18 18:18 同步状态:空闲 下次计划:2026-04-18 19:18

PR 列表

已合并 52 · 已分析 52
更多筛选 · 已设定
✕ 清空
2026-04-16

#1836 [fix] eval sample logging when sample is a list

作者 mathewjhan · 合并时间 2026-04-16 11:14

缺陷修复 重要性 4.97 洞察度 3.00

修复多智能体场景下评估日志记录时对列表类型样本的处理错误。

该 PR 值得快速浏览,特别是对于处理多智能体或异步生成场景的开发者。关注点在于如何优雅地处理函数返回类型的多态性,避免硬编码假设。

2026-04-15
缺陷修复 重要性 4.35 洞察度 3.00

修复权重转换工具中补充缺失权重时错误使用CUDA设备的问题。

该PR代码变更简单明了,适合快速了解权重转换工具的设备处理逻辑。值得关注的是工具设计中设备选择的考量:在离线预处理任务中优先保证兼容性而非性能。

参与讨论