Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 15:44 同步状态:空闲 下次计划:2026-04-19 16:44

PR 列表

已合并 961 · 已分析 961
更多筛选
2026-04-11
性能优化 重要性 5.00 洞察度 5.00

预计算 FA3 scheduler_metadata 以消除每层 prepare_varlen_num_blocks 内核调用,提升解码吞吐量约 2%。

建议精读此 PR,重点关注 _compute_scheduler_metadata 方法的实现和 CUDA 图路径中的逻辑,以及 review 中讨论的滑动窗口注意力处理不一致问题。设计决策展示了性能优化与向后兼容的权衡,适合学习内核调用减少的技巧。

功能 重要性 5.00 洞察度 5.00

更新ModelExpress元数据API以支持基于SourceIdentity的新模式,提升分布式模型加载的鲁棒性。

对于涉及分布式模型加载、ModelExpress集成或远程实例权重加载的开发者,此PR值得精读,重点关注SourceIdentity构建的设计决策、API迁移的权衡,以及错误处理的最佳实践。同时,注意配置字段的正确使用,以避免潜在匹配问题。

#22465 Update CI_PERMISSIONS.json

作者 satyamk7054 · 合并时间 2026-04-11 04:43

基础设施 重要性 2.00 洞察度 1.00

为satyamk7054用户添加CI权限,允许其触发CI测试和重试失败任务。

这是一个简单的权限更新PR,无需深入阅读代码。对于技术管理者,可以关注CI权限管理的规范性和安全性;对于工程师,了解CI权限配置方式即可。

#22515 Reduce GPU memory for MoE parallel groups

作者 ch-wan · 合并时间 2026-04-11 04:23

性能优化 重要性 6.00 洞察度 5.00

为MoE并行组禁用pynccl和custom_allreduce,显著减少GPU内存占用。

该PR值得精读,特别是对于关心内存优化和分布式通信设计的工程师。关注点:1. 如何通过禁用不必要通信器节省内存的设计决策;2. `all_reduce`方法中回退路径的守卫逻辑;3. 与历史PR中MoE相关优化的关联(如#21339)。

功能 重要性 6.00 洞察度 5.00

为MiniMax-M2.5模型添加DP注意力支持及相关通信优化,提升高吞吐场景性能。

建议精读`minimax_m2.py`中的`forward_normal`和`forward_prepare`方法,关注DP注意力支持的设计和通信优化标志的集成。同时注意review中关于零令牌处理和分布式正确性的讨论,这些是分布式推理系统的关键设计点。

缺陷修复 重要性 4.00 洞察度 3.00

修复stop_token_ids包含null时服务器崩溃问题,过滤None值防止下游torch.tensor异常。

该PR值得快速浏览以了解防御性输入验证的模式。虽然变更简单,但展示了如何处理JSON null值在Python中的传播问题。关注点: 1. 从提交历史看代码如何从复杂实现简化为最终简洁版本。 2. review中提到的未修复的类似漏洞(stop和stop_regex)值得后续关注。

参与讨论