Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-23

#26129 compile _resolve_spec_extras gather kernels

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-23 17:34

性能优化 重要性 6.73 洞察度 4.00

编译 spec_v2 的 gather 内核,减少 3 次 kernel launch

本 PR 属于常规性能优化,逻辑清晰简单,值得阅读实现细节以了解如何在 SGLang 代码库中使用 torch.compile 融合操作。

缺陷修复 重要性 8.93 洞察度 5.00

回退#26134的CUDA graph统一重构,保留SWA修复

建议尽快合并以恢复主分支稳定性,并记录回退原因;后续统一重构应充分测试并增加针对性单元测试。本PR展示了review发现深度bug的价值,值得精读review讨论。

#26117 [VLM] Preserve preprocessed input ids

原始 PR · 作者 mickqian · 合并时间 2026-05-23 17:02

性能优化 重要性 8.16 洞察度 5.00

保留 VLM 预处理输入 ID 并优化 grid 处理

值得阅读,展示了如何通过提取通用方法和字段来优化 VLM 预处理路径,尤其 `_is_preprocessed_input` 系列方法设计可复用,适合在多模态输入验证场景推广。注意确认没有遗漏原有格式匹配逻辑。

#26116 [VLM] Reuse Qwen pretokenized ids

原始 PR · 作者 mickqian · 合并时间 2026-05-23 16:01

功能 重要性 7.57 洞察度 5.00

复用 Qwen VLM 预 tokenize 的 ids 和 MRoPE 元数据

值得精读,尤其关注 Qwen 模型前处理数据流和跨模块数据复用的设计模式。建议作者为 `build_padded_input_ids` 和 MRoPE 复用逻辑补充单元测试,以防止未来回归。

缺陷修复 重要性 4.64 洞察度 3.00

适配 Qwen3.5-MTP 模型,删除冗余日志

变更简单清晰,建议合并。值得关注的设计决策是:为 MTP 草稿模型注册多模态处理器的方式是否足够通用,是否需要考虑更多模型变体。

缺陷修复 重要性 6.31 洞察度 4.00

修复 SWA 翻译缓存在 BCG/CG 路径的警告

此 PR 是聚焦的 bugfix,逻辑清晰、改动量小(+14/-11),建议批准合并。虽然缺少新自动化测试,但修复已在实际模型上充分验证。值得关注的设计点是:参数改名揭示了 `TokenToKVPool` 和 `TokenToKVAllocator` 之间的职责边界——方法应定义在拥有属性的对象上,避免中间层转发。

参与讨论