新增 cache-dit 的 1GPU 和 2GPU CI 测试用例
值得合并,建议后续缓存相关变更应确保该测试通过。可考虑进一步增加更多模型或配置的测试以覆盖更广场景。
SGLang is a high-performance serving framework for large language models and multimodal models.
新增 cache-dit 的 1GPU 和 2GPU CI 测试用例
值得合并,建议后续缓存相关变更应确保该测试通过。可考虑进一步增加更多模型或配置的测试以覆盖更广场景。
增强请求转储的鲁棒性与可配置性
建议精读 `tokenizer_manager.py` 中的 `dump_requests`、`_dump_data_to_file` 和 `dump_requests_before_crash` 方法,理解 Pickle 回退的设计模式。值得关注的设计决策是:在出错时只丢弃 `server_args` 而非整体放弃,这是一种优雅的降级方案。
重构设备缓存清空逻辑,抽象为通用辅助函数
值得精读,特别是 `empty_device_cache` 的实现展示了如何通过 `torch.get_device_module()` 编写设备无关代码。提取 `flush_cache_after_weight_update` 的重构方式也值得在类似重复场景中借鉴。
PrefillDelayer 支持 NCCL all-gather 避免 GPU↔CPU 同步
该 PR 值得查看,因为它修复了一个潜在的性能问题,并且设计清晰。特别关注 `PrefillDelayer` 中条件选择 gather 组和设备的方式,以及调度器中简化的传递逻辑,可作为模块间依赖注入的范例。
修复Ray下NUMA绑定错选GPU的问题
值得合并,修复明确,风险可控。建议关注 PyTorch 版本更新对该内部 API 的影响,并及时更新 fallback 逻辑。
澄清 CI 斜杠命令文档说明
小型文档改进,贡献者可快速了解,不需要深入精读。但体现了对开发者体验的重视,值得认可。
清理推测解码模块死代码
推荐合入。此类死代码清理具有正向价值——降低认知负担、减少 Linter/Type Checker 误报、便于未来重构。可以快速 review 后合并。
原始 PR · 作者 yeahdongcn · 合并时间 2026-05-10 05:45
新增 /sgl-kernel/csrc/musa 目录的代码负责人
该 PR 为纯粹的流程性变更,不需要深度阅读。可作为了解项目 CODEOWNERS 配置的参考。
参与讨论