Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-03
缺陷修复 重要性 5.86 洞察度 4.50

修复 PD prefilling 中 out_cache_loc 切片偏移错误

**是否值得精读:** 否。改动很小,但修复逻辑清晰,适合作为 radix cache 与 token pool 交互布局的快速了解案例。 **值得关注的设计决策:** reviewer 建议的“在修复同时添加精度回归测试”是很好的实践,推荐团队在类似 bugfix 中推广。

性能优化 重要性 8.29 洞察度 6.00

优化LTX2.3 HQ去噪分裂策略

值得精读,尤其是 `_ltx2_res2s_sde_step` 的 `terminal` 参数设计展示了如何用 Python 层标量判断避免 CUDA bool 同步,是 GPU 优化的一般技巧。`_apply_ltx2_guidance_pass_kwargs` 的注入模式也适用于其他扩散模型的 split-pass 场景。建议配合 PR#23148 和 #23938 阅读,了解完整的扩散性能优化链。

基础设施 重要性 5.92 洞察度 4.00

为扩散CI添加强制官方GT模式

如果负责扩散模型的CI维护,建议仔细阅读此PR以理解官方GT模式的工作原理;对其他开发者而言,了解即可,无需深入。

重构 重要性 4.88 洞察度 3.00

重命名 JIT all-reduce 环境变量并迁移至 envs 模块

值得精读的点:了解 SGLang 项目中环境变量的集中管理模式(`Envs` 类)以及弃用处理的惯用模式(`_print_deprecated_env`)。该 PR 展示了小范围代码整洁重构的标准流程。

#24291 [CI] Keep custom sgl-kernel wheel in CUDA CI

原始 PR · 作者 mmangkad · 合并时间 2026-05-03 12:53

缺陷修复 重要性 4.25 洞察度 3.00

修复 CI 中自定义 sgl-kernel 被覆盖的问题

应合并此修复,它解决了一个关键的 CI 回归,使内核相关 PR 的测试更加可靠。建议精读该变更,以理解 CI 依赖安装的控制流。

功能 重要性 9.17 洞察度 6.00

新增LoRA排空器(LoRADrainer)降低尾部延迟

建议精读 LoRADrainer 的设计:通过 starvation 检测和 greedy draining 选择(优先排空剩余 token 最少的适配器)是一种经典的公平调度启发式,值得在类似场景复用。同时注意其默认关闭的设计体现了对主流性能的谨慎。

参与讨论