Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-10

#19213 [diffusion] Add cache-dit CI tests

原始 PR · 作者 qimcis · 合并时间 2026-05-10 13:38

测试 重要性 5.26 洞察度 3.00

新增 cache-dit 的 1GPU 和 2GPU CI 测试用例

值得合并,建议后续缓存相关变更应确保该测试通过。可考虑进一步增加更多模型或配置的测试以覆盖更广场景。

缺陷修复 重要性 6.62 洞察度 6.00

增强请求转储的鲁棒性与可配置性

建议精读 `tokenizer_manager.py` 中的 `dump_requests`、`_dump_data_to_file` 和 `dump_requests_before_crash` 方法,理解 Pickle 回退的设计模式。值得关注的设计决策是:在出错时只丢弃 `server_args` 而非整体放弃,这是一种优雅的降级方案。

#24861 [Utils] Refactor device cache emptying

原始 PR · 作者 hebiao064 · 合并时间 2026-05-10 12:28

重构 重要性 6.90 洞察度 5.00

重构设备缓存清空逻辑,抽象为通用辅助函数

值得精读,特别是 `empty_device_cache` 的实现展示了如何通过 `torch.get_device_module()` 编写设备无关代码。提取 `flush_cache_after_weight_update` 的重构方式也值得在类似重复场景中借鉴。

性能优化 重要性 6.12 洞察度 6.00

PrefillDelayer 支持 NCCL all-gather 避免 GPU↔CPU 同步

该 PR 值得查看,因为它修复了一个潜在的性能问题,并且设计清晰。特别关注 `PrefillDelayer` 中条件选择 gather 组和设备的方式,以及调度器中简化的传递逻辑,可作为模块间依赖注入的范例。

#24865 speculative: drop dead params/returns/no-ops

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-10 06:53

重构 重要性 6.14 洞察度 3.00

清理推测解码模块死代码

推荐合入。此类死代码清理具有正向价值——降低认知负担、减少 Linter/Type Checker 误报、便于未来重构。可以快速 review 后合并。

#24746 Update CODEOWNERS for /sgl-kernel/csrc/musa

原始 PR · 作者 yeahdongcn · 合并时间 2026-05-10 05:45

基础设施 重要性 1.91 洞察度 1.00

新增 /sgl-kernel/csrc/musa 目录的代码负责人

该 PR 为纯粹的流程性变更,不需要深度阅读。可作为了解项目 CODEOWNERS 配置的参考。

参与讨论