添加多 detokenizer 路由器与 CLI 参数
值得精读。该 PR 展示了如何在现有架构中插入一层无状态路由器以水平扩展 detokenizer,其设计模式(基于哈希的固定路由、进程生命周期管理、接口适配)具有参考价值。重点关注 `MultiDetokenizerRouter` 的路由策略和 `_extract_field_by_index` 的修复。
SGLang is a high-performance serving framework for large language models and multimodal models.
添加多 detokenizer 路由器与 CLI 参数
值得精读。该 PR 展示了如何在现有架构中插入一层无状态路由器以水平扩展 detokenizer,其设计模式(基于哈希的固定路由、进程生命周期管理、接口适配)具有参考价值。重点关注 `MultiDetokenizerRouter` 的路由策略和 `_extract_field_by_index` 的修复。
原始 PR · 作者 hanming-lu · 合并时间 2026-05-16 08:15
修复 TRTLLM SWA 推测解码接受长度异常
该 PR 是一个小但关键的 bugfix,修复了一个难以察觉的逻辑错误。建议精读,理解 draft/target 模型在混合 SWA 场景下如何共享内存池。值得关注的设计决策:判断依据从 allocator 类型改为 pool 类型,与 Triton 后端对齐。
原始 PR · 作者 jasonjk-park · 合并时间 2026-05-16 06:45
为自定义 speculative 算法提供扩展点
值得精读的设计模式改动。对于计划开发或集成自定义 speculative 算法的工程师,了解这两个扩展点是必须的。合并审批干净,CI 通过即可合入。建议后续为扩展点补充单元测试,确保新算法集成时不引入回归。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-16 05:32
本地构建结构标签修复并行工具调用
值得精读。PR 展示了如何通过 override detector 方法在本地构建结构化标签来绕过上游 bug,设计清晰、docstring 详尽。团队应关注 xgrammar 上游修复进度,以便未来移除 override。
拆分 DSAMTP 测试为 4 文件,避免 CI 超时
如果你关注 CI 流水线优化或测试架构设计,这个 PR 值得精读。特别是通过多重继承(Mixin)组合测试逻辑的模式,在 SGLang 测试框架中已有大量使用,该 PR 是良好的实践案例。对于仅使用 SGLang 推理的用户,可快速浏览了解变更即可。
重跑测试从 YAML 动态解析 runner 标签
值得所有涉及 CI 维护的开发者精读,学习如何通过 YAML 配置驱动 workflow、移除硬编码表。重点关注 `_extract_runner_config` 的实现和 `rerun-test.yml` 的拆分模式。
重用前层MoE输出减峰值内存539MB
建议团队精读此 PR,尤其是 ContextVar 传递临时缓冲区的设计模式和显式清除注意力输入以缩短 tensor 生命周期的实践。对于 hot path 的性能优化建议(预计算标志、内联导入上提)需在后续迭代中采纳。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-16 02:47
为 Ring-2.6-1T 新增 H200 x8 部署文档与基准测试
PR 内容清晰简洁,改动合规;适合合并。对于关注 H200 部署的用户有参考价值,其余开发者可快速浏览。
参与讨论