修复Z-Image负提示旋转嵌入使用正提示长度的bug
该PR值得审阅以理解扩散模型中CFG分支处理的常见陷阱;设计简单明了,适合作为bugfix范例。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复Z-Image负提示旋转嵌入使用正提示长度的bug
该PR值得审阅以理解扩散模型中CFG分支处理的常见陷阱;设计简单明了,适合作为bugfix范例。
修复 PD prefilling 中 out_cache_loc 切片偏移错误
**是否值得精读:** 否。改动很小,但修复逻辑清晰,适合作为 radix cache 与 token pool 交互布局的快速了解案例。 **值得关注的设计决策:** reviewer 建议的“在修复同时添加精度回归测试”是很好的实践,推荐团队在类似 bugfix 中推广。
优化LTX2.3 HQ去噪分裂策略
值得精读,尤其是 `_ltx2_res2s_sde_step` 的 `terminal` 参数设计展示了如何用 Python 层标量判断避免 CUDA bool 同步,是 GPU 优化的一般技巧。`_apply_ltx2_guidance_pass_kwargs` 的注入模式也适用于其他扩散模型的 split-pass 场景。建议配合 PR#23148 和 #23938 阅读,了解完整的扩散性能优化链。
为扩散CI添加强制官方GT模式
如果负责扩散模型的CI维护,建议仔细阅读此PR以理解官方GT模式的工作原理;对其他开发者而言,了解即可,无需深入。
重命名 JIT all-reduce 环境变量并迁移至 envs 模块
值得精读的点:了解 SGLang 项目中环境变量的集中管理模式(`Envs` 类)以及弃用处理的惯用模式(`_print_deprecated_env`)。该 PR 展示了小范围代码整洁重构的标准流程。
修复 CI 中自定义 sgl-kernel 被覆盖的问题
应合并此修复,它解决了一个关键的 CI 回归,使内核相关 PR 的测试更加可靠。建议精读该变更,以理解 CI 依赖安装的控制流。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-03 12:53
修复夜间CI任务因共享并发组互相取消
建议合并后观察一次夜间测试运行以确认修复效果;若需更严格的单硬件序列化,后续可通过 `needs:` 链实现。
新增LoRA排空器(LoRADrainer)降低尾部延迟
建议精读 LoRADrainer 的设计:通过 starvation 检测和 greedy draining 选择(优先排空剩余 token 最少的适配器)是一种经典的公平调度启发式,值得在类似场景复用。同时注意其默认关闭的设计体现了对主流性能的谨慎。
参与讨论