#27073 [router] Configure experimental sgl-router via CLI flags instead of a config file
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-06-05 10:02
sgl-router 从配置文件驱动改为纯 CLI 标志驱动
值得精读,特别是 CLI 设计原则(互斥、条件校验、类型驱动验证)以及从 serde 迁移到 clap 的平滑过渡。对设计 Rust CLI 应用有参考价值。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-06-05 10:02
sgl-router 从配置文件驱动改为纯 CLI 标志驱动
值得精读,特别是 CLI 设计原则(互斥、条件校验、类型驱动验证)以及从 serde 迁移到 clap 的平滑过渡。对设计 Rust CLI 应用有参考价值。
跨TP同步sidecar命中,SWA预取全或无
值得精读 `unified_radix_cache.py` 中打包 all_reduce 的设计模式,可复用至其他 sidecar 组件。`swa_component.py` 的全或无逻辑可作为类似“原子预取”实现的参考。但需关注 review 中遗留的 `pool_storage_result` 保护问题和 sidecar 顺序假设,建议后续修复。
为 trtllm_mha 启用 spec_v2 draft-extend CUDA graph
值得精读。本 PR 展示了在复杂推测解码路径中启用 CUDA graph 的完整思路:白名单控制、metadata 语法适配、合理精简 graph 内部计算量以避免浪费,以及对应的测试合约更新。对于理解 speculative v2、TRTLLM backend 以及 CUDA graph 的正确使用很有参考价值。
修复混合MLA模型预填充崩溃,委托init_mha_chunk_metadata到全注意力后端
建议精读此 PR,特别是 `init_mha_chunk_metadata` 的委托设计。虽然修复简单,但揭示了后端接口不一致的隐患,值得在后续重构中统一。同时,可扩展测试覆盖到其他 MLA 后端(TRTLLM、CuteDSL),并在委托逻辑中增加参数适配。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-06-05 08:43
恢复 Gemma 4 cookbook 中 transformers 提交锁定
可直接合并。该修复简单且关键,避免用户因缺少 pin 而遇到模型加载失败。
原始 PR · 作者 sglang-bot · 合并时间 2026-06-05 08:42
自动同步 LMSYS 博客卡片到首页
该 PR 为日常文档维护,无需重点关注。
修复 blog 同步 CI 的 PR token 权限问题
简单且必要的 CI 修复,对齐了仓库的已有最佳实践,值得快速合入。
用 batch 携带的 attention plan marker 替换 skip_attn_backend_init
强烈建议阅读。PR 展示了如何用 batch 携带的状态替换控制耦合,以及如何通过 opt-in 的 plan record 安全地实现 staleness re-plan,是 speculative decoding 路径中一次重要的基础设施重构。设计思路(将断言从调用链远处转移到数据本身)值得其他类似场景借鉴。
参与讨论