Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-06-05
功能 重要性 7.64 洞察度 6.00

跨TP同步sidecar命中,SWA预取全或无

值得精读 `unified_radix_cache.py` 中打包 all_reduce 的设计模式,可复用至其他 sidecar 组件。`swa_component.py` 的全或无逻辑可作为类似“原子预取”实现的参考。但需关注 review 中遗留的 `pool_storage_result` 保护问题和 sidecar 顺序假设,建议后续修复。

功能 重要性 6.60 洞察度 5.00

为 trtllm_mha 启用 spec_v2 draft-extend CUDA graph

值得精读。本 PR 展示了在复杂推测解码路径中启用 CUDA graph 的完整思路:白名单控制、metadata 语法适配、合理精简 graph 内部计算量以避免浪费,以及对应的测试合约更新。对于理解 speculative v2、TRTLLM backend 以及 CUDA graph 的正确使用很有参考价值。

缺陷修复 重要性 7.10 洞察度 5.00

修复混合MLA模型预填充崩溃,委托init_mha_chunk_metadata到全注意力后端

建议精读此 PR,特别是 `init_mha_chunk_metadata` 的委托设计。虽然修复简单,但揭示了后端接口不一致的隐患,值得在后续重构中统一。同时,可扩展测试覆盖到其他 MLA 后端(TRTLLM、CuteDSL),并在委托逻辑中增加参数适配。

重构 重要性 8.99 洞察度 7.00

用 batch 携带的 attention plan marker 替换 skip_attn_backend_init

强烈建议阅读。PR 展示了如何用 batch 携带的状态替换控制耦合,以及如何通过 opt-in 的 plan record 安全地实现 staleness re-plan,是 speculative decoding 路径中一次重要的基础设施重构。设计思路(将断言从调用链远处转移到数据本身)值得其他类似场景借鉴。

参与讨论