Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-03

#23538 [NPU] Fix Z-Image negative-branch rotary embeddings for CFG

原始 PR · 作者 gxxx-hum · 合并时间 2026-05-03 21:18

缺陷修复重要性 6.21 洞察度 3.00

修复Z-Image负提示旋转嵌入使用正提示长度的bug

该PR值得审阅以理解扩散模型中CFG分支处理的常见陷阱；设计简单明了，适合作为bugfix范例。

bugfixdiffusiontest

#24230 [pd]: (Bug Fix) Incorrect out_cache_loc slicing in prepare_for_prebuilt

原始 PR · 作者 hzh0425 · 合并时间 2026-05-03 18:35

缺陷修复重要性 5.86 洞察度 4.50

修复 PD prefilling 中 out_cache_loc 切片偏移错误

**是否值得精读：** 否。改动很小，但修复逻辑清晰，适合作为 radix cache 与 token pool 交互布局的快速了解案例。 **值得关注的设计决策：** reviewer 建议的“在修复同时添加精度回归测试”是很好的实践，推荐团队在类似 bugfix 中推广。

bugfixschedulingkv-cache

#24298 [codex] Optimize LTX2.3 HQ denoising split passes

原始 PR · 作者 mickqian · 合并时间 2026-05-03 16:37

性能优化重要性 8.29 洞察度 6.00

优化LTX2.3 HQ去噪分裂策略

值得精读，尤其是 `_ltx2_res2s_sde_step` 的 `terminal` 参数设计展示了如何用 Python 层标量判断避免 CUDA bool 同步，是 GPU 优化的一般技巧。`_apply_ltx2_guidance_pass_kwargs` 的注入模式也适用于其他扩散模型的 split-pass 场景。建议配合 PR#23148 和 #23938 阅读，了解完整的扩散性能优化链。

performancediffusionrun-ci

#24270 [codex] Add official diffusion GT workflow mode

原始 PR · 作者 mickqian · 合并时间 2026-05-03 15:10

基础设施重要性 5.92 洞察度 4.00

为扩散CI添加强制官方GT模式

如果负责扩散模型的CI维护，建议仔细阅读此PR以理解官方GT模式的工作原理；对其他开发者而言，了解即可，无需深入。

cidiffusionrun-ci

#24297 Rename SGLANG_USE_JIT_ALL_REDUCE to SGLANG_OPT_USE_CUSTOM_ALL_REDUCE_V2

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-03 14:59

重构重要性 4.88 洞察度 3.00

重命名 JIT all-reduce 环境变量并迁移至 envs 模块

值得精读的点：了解 SGLang 项目中环境变量的集中管理模式（`Envs` 类）以及弃用处理的惯用模式（`_print_deprecated_env`）。该 PR 展示了小范围代码整洁重构的标准流程。

refactorkv-cache

#24291 [CI] Keep custom sgl-kernel wheel in CUDA CI

原始 PR · 作者 mmangkad · 合并时间 2026-05-03 12:53

缺陷修复重要性 4.25 洞察度 3.00

修复 CI 中自定义 sgl-kernel 被覆盖的问题

应合并此修复，它解决了一个关键的 CI 回归，使内核相关 PR 的测试更加可靠。建议精读该变更，以理解 CI 依赖安装的控制流。

cibugfixsgl-kernel

#24282 [CI] Fix nightly NV jobs cancelling each other via shared concurrency groups

原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-03 12:53

缺陷修复重要性 5.05 洞察度 4.00

修复夜间CI任务因共享并发组互相取消

建议合并后观察一次夜间测试运行以确认修复效果；若需更严格的单硬件序列化，后续可通过 `needs:` 链实现。

cibugfixrun-ci

#17913 [Feature] add LoRADrainer to address high P99 TTFT

原始 PR · 作者 glenliu21 · 合并时间 2026-05-03 07:13

功能重要性 9.17 洞察度 6.00

新增LoRA排空器（LoRADrainer）降低尾部延迟

建议精读 LoRADrainer 的设计：通过 starvation 检测和 greedy draining 选择（优先排空剩余 token 最少的适配器）是一种经典的公平调度启发式，值得在类似场景复用。同时注意其默认关闭的设计体现了对主流性能的谨慎。

loraperformancescheduling

第 180 / 357 页 · 共 2850 条

上一页 1 … 178 179 180 181 182 … 357 下一页