Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-23
缺陷修复 重要性 6.69 洞察度 6.00

修复 Aiter 后端 page_size>1 时 KV indices 越界

该 PR 是关键的 bugfix,涉及显存安全,建议尽快合并并 cherry-pick 到稳定分支。开发者应关注 reviewer 提到的其他位置(`max_kv_len` 计算)是否存在类似问题,后续可能需要进一步修复。

#26141 Add non-MTP DSV4 test coverage

原始 PR · 作者 Fridge003 · 合并时间 2026-05-23 10:43

测试 重要性 5.93 洞察度 2.00

为 DeepSeek V4 增加非 MTP 模式测试覆盖

值得查阅,了解 DeepSeek V4 在 B200 和 H200 上的非 MTP 测试配置差异,为后续类似测试添加提供模板。

重构 重要性 8.97 洞察度 6.00

合并三个 PD 后端共享逻辑到公共基类

值得仔细阅读,尤其是想在多后端项目中消除重复代码的团队。本 PR 展示了通过抽象基类 + 模板方法模式(钩子 `_on_heartbeat_success`)实现后端统一化的良好实践。不过,讨论中提出的性能与线程安全建议可以后续跟进。

#26121 [diffusion] Auto-select VAE channels_last_3d

原始 PR · 作者 mickqian · 合并时间 2026-05-23 10:20

性能优化 重要性 7.95 洞察度 5.00

自动选择 VAE 的 channels_last_3d 布局并添加环境变量控制

值得精读,特别适合学习如何设计平台感知的默认策略和相应的质量保障测试。

缺陷修复 重要性 6.23 洞察度 5.00

修复 SCATTERED MLP 模式的 allreduce 融合与 dummy_run 对齐

值得合并。设计上,明确 SCATTERED 模式不应参与 allreduce 融合是合理的;对齐逻辑与调度器对齐避免了 warmup 崩溃。建议关注后续是否有更广泛的融合条件重构,以及测试是否需要在更多模型上验证。

重构 重要性 8.75 洞察度 6.00

统一5个attention后端的CUDA图捕获/重放逻辑,消除重复代码并修复潜在bug

值得精读。此PR展示了大型重构中消除重复的经典手法:提取公共方法、capture委托replay、工厂方法封装。对从事推理加速、CUDA图优化、attention模块开发的工程师有重要参考价值。建议在下次设计新的attention后端时,直接参考此PR总结的公共接口。

参与讨论