如果 Prhub 帮您更快理解仓库变化、讨论和风险,欢迎赞助,支持我持续维护和优化这个项目。
您的支持会主要用于网站运行与持续迭代:
赞助仅代表对内容的认可与鼓励,不对应任何商品、资料、社群权益或服务交付。感谢您的支持。
slime is an LLM post-training framework for RL Scaling.
当前筛选范围内没有 PR。
评论区需要启用 JavaScript;也可以直接前往 GitHub Discussions 参与讨论。
参与讨论