Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 17:55 同步状态:空闲 下次计划:2026-04-19 18:55

PR 列表

已合并 961 · 已分析 961
更多筛选
2026-04-10
功能 重要性 6.00 洞察度 6.00

为CPU路径添加路由缩放因子支持,扩展fp32数据类型,并优化MoE topk融合。

该PR值得精读,特别是sgl-kernel/csrc/cpu/topk.cpp中的内核实现变更,展示了如何优化CPU路径的MoE topk融合以支持新功能。关注宏重构的设计决策,以及测试用例的扩展方法,可作为类似内核优化的参考。

重构 重要性 4.00 洞察度 2.00

修复Intel GPU后端因PR #20796导致的flash_attn导入回归问题。

对于大多数工程师,此PR无需精读,只需了解其修复了导入回归问题。对于负责Intel GPU后端或内核模块的开发者,值得关注sgl_kernel.flash_attn作为flash_attn函数的新统一来源,这可能反映了项目在模块组织上的演进方向。

#22499 Update HiSparse's user-guide

作者 hzh0425 · 合并时间 2026-04-10 15:06

文档 重要性 2.00 洞察度 1.00

更新HiSparse用户指南,调整配置参数并新增基准测试示例。

该PR为纯文档更新,无需深入代码审查。建议文档维护者关注配置参数变更是否与代码实现一致,并考虑在相关代码注释中同步更新。对于使用HiSparse的用户,值得参考更新后的部署示例。

性能优化 重要性 6.96 洞察度 6.00

为 DeepSeek-R1-0528-w4a8 模型实现 FP8 通信,减少延迟并提升吞吐量约 10%。

该 PR 值得精读,以了解如何通过 FP8 通信优化 MoE 模型性能,特别是在 Triton 内核实现和量化策略方面的设计决策。同时,注意 review 中讨论的兼容性问题,可参考 PR #22822 的修复方案,了解如何平衡性能与向后兼容性。

#22239 [sgl] Fix mamba tracking calculation in spec dec

作者 2022tgoel · 合并时间 2026-04-10 14:46

缺陷修复 重要性 4.00 洞察度 3.00

修复推测解码中Mamba跟踪计算的边界错误,确保前缀缓存正确更新。

该PR值得精读,尽管变更简单,但揭示了推测解码中奖励令牌处理的微妙边界条件。关注点:1. `accept_length_per_req_cpu`的构造约定及其在各类计算中的一致性。2. Mamba跟踪间隔与前缀缓存的交互设计。建议结合推测解码和Mamba相关文档理解上下文。

#22381 [Lora] Lora kimi support

作者 yushengsu-thu · 合并时间 2026-04-10 13:31

功能 重要性 6.00 洞察度 6.00

为Kimi-K2.5模型添加LoRA支持,并优化量化MoE兼容性。

建议技术管理者和工程师精读此PR,关注LoRA与量化MoE集成的设计决策,如get_triton_quant_info的重构和运行器后端选择逻辑,这些对于理解框架扩展机制有价值。同时,注意review中未解决的风险点,可能在后续开发中需要额外测试或修复。

缺陷修复 重要性 6.00 洞察度 5.00

修复SWA驱逐边界bug,防止页面大小大于滑动窗口时radix树插入错误导致的负使用和双重释放。

建议精读以了解SWA驱逐边界处理的预防与防御设计模式,这对于分布式缓存系统有借鉴意义。关注`_evict_swa`和`_insert_helper`的协同修复方式。

缺陷修复 重要性 6.00 洞察度 7.00

修复EAGLE推测解码在TP>1和非贪婪采样时因浮点非确定性导致的NCCL AllGather死锁问题。

该PR是解决分布式推测解码死锁问题的关键修复,值得所有涉及分布式推理和推测解码的工程师精读。重点关注浮点非确定性在分布式采样中的影响,以及通过广播确保一致性的设计模式。

参与讨论