Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 13:29 同步状态:空闲 下次计划:2026-04-19 14:29

PR 列表

已合并 960 · 已分析 960
更多筛选
2026-03-29
重构 重要性 4.00 洞察度 3.00

清理detokenizer管理器并移除未使用的多模态生成代码,引入健康检查请求前缀常量。

建议工程师精读detokenizer_manager.py的清理部分,以学习如何安全移除冗余代码和优化状态管理;同时关注常量引入的设计决策,作为避免硬编码的良好实践。

文档 重要性 3.00 洞察度 2.00

对齐扩散基准预设与夜间比较案例,新增Wan2.2-I2V-A14B覆盖并添加预设列表功能。

对于扩散基准测试或夜间比较感兴趣的工程师,建议快速浏览以了解预设对齐细节和新增功能;对于一般用户,可作为参考资料,无需深入分析代码逻辑。

#21411 [GDN] Fuse GDN kkt + solve_tril into one kernel

作者 yuan-luo · 合并时间 2026-03-29 12:02

性能优化 重要性 6.00 洞察度 6.00

融合GDN kkt和solve_tril操作到单个Triton内核,减少寄存器负担,提升性能约5%。

建议技术管理者和工程师精读此PR,重点关注新融合内核的设计决策、性能权衡以及与FLA项目的对齐方式。对于从事内核优化的开发者,可学习Triton内核融合技巧和寄存器管理策略,同时注意CHUNK_SIZE隐式依赖的风险。

缺陷修复 重要性 4.00 洞察度 3.00

为 AMD ROCm 平台扩散模型添加 peft>=0.18.0 依赖,解决 transformers 5.x 兼容性问题。

此 PR 变更简单,无需深度精读,但工程师可关注其依赖兼容性管理策略,尤其是在跨平台和版本升级场景中。建议复习相关 CI 测试确保多平台覆盖,并注意依赖配置的维护。

缺陷修复 重要性 6.00 洞察度 5.00

修复 sglang 后端在图像数据集基准测试中的兼容性,确保图像占位符触发 ViT 编码。

该 PR 值得精读,特别是对于理解 sglang 中多模态提示处理的设计决策,如不同后端对 chat template 的应用差异。关注 `create_mm_data_row` 函数中的逻辑拆分,以及如何通过占位符触发 ViT。

#21452 fix: piecewise_cuda_graph get correct qo_indptr

作者 yyihuang · 合并时间 2026-03-29 06:57

缺陷修复 重要性 6.00 洞察度 6.00

修复piecewise CUDA graph中qo_indptr计算错误,确保填充令牌不影响因果掩码。

建议工程师精读flashinfer_backend.py中的call_begin_forward方法,关注虚拟请求的设计和避免同步的技巧,这对理解piecewise CUDA graph的优化和索引处理有参考价值。

#19089 Support skip-softmax attention

作者 wenscarl · 合并时间 2026-03-29 06:55

功能 重要性 7.00 洞察度 6.00

为SGLang添加skip-softmax注意力支持,以加速长上下文推理。

建议技术管理者关注阈值参数在预填充和解码模式下的正确传递逻辑,并验证基准测试的准确性。工程师可精读`nsa_backend.py`中的修改,以理解skip-softmax实现细节和flashinfer集成方式,同时参考PR body中的性能数据评估实际收益。

#21482 Skip ci for .md files

作者 OrangeRedeng · 合并时间 2026-03-29 04:00

基础设施 重要性 4.00 洞察度 2.00

修改多个 CI 工作流以跳过 .md 和 .txt 文件测试,优化 CI 效率。

对于技术管理者,建议快速批准此 PR,因为它优化了 CI 流程且风险低。对于工程师,可以浏览变更以了解如何配置 GitHub Actions 过滤器来跳过非代码文件,但无需深入解析代码逻辑,因为这是机械的配置调整。

参与讨论