手动全量 CI 运行启用完整并行度
该 PR 是小而有效的 CI 改进,建议合并。对于 CI 维护者,该逻辑值得参考,作为扩展 CI 并行度控制的模式。
SGLang is a high-performance serving framework for large language models and multimodal models.
手动全量 CI 运行启用完整并行度
该 PR 是小而有效的 CI 改进,建议合并。对于 CI 维护者,该逻辑值得参考,作为扩展 CI 并行度控制的模式。
回退 spec v2 topk>1 树形 draft 支持,修复默认行为破坏
阅读者应关注此 revert 背后的测试覆盖率不足问题:原始 PR #26866 的 CI 状态为 ❌,仍被合并,导致默认行为破坏。建议加强 speculative 模块的自动化测试,特别是 topk>1 与 spec v2 的组合场景。回退本身逻辑清晰,值得参考的是 `fill_bonus_tokens` stride 参数的修正——用 `accept_index.shape[1]` 而非 `speculative_num_draft_tokens` 是导致 topk>1 错误的根本原因之一。
修复 LoRA 分块请求槽位遗漏
值得阅读以了解 LoRA 调度中的分块请求处理陷阱。虽然代码改动极小,但反映了状态同步容易遗漏的典型场景。
原始 PR · 作者 chenkaiyue · 合并时间 2026-06-02 06:58
修复 HiCache radix 树节点分片导致的 KV 缓存数据丢失
值得精读,尤其是 `_concat_split_chain` 的设计思路——如何将 Python 引用语义与不可变快照之间的冲突转化为廉价的链式恢复。这种延迟恢复模式对于其他先入队再可能变动的场景有借鉴意义。建议补充正式的单元测试,覆盖节点分割后写穿、多次分割、bigram 模式等场景。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-06-02 06:37
跳过 topk=1 时 draft_forward 的 cat/topk/sort/gather
值得精读。展示了如何利用数学等价性消除 GPU 内核调用,是性能优化的典型案例。`_rebuild_topk1_chain_buffers` 的设计和与自适应推测解码的配合值得关注。测试覆盖充分,可放心合入。
支持 page_size=1 时 spec v2 树形推导 (topk>1)
值得精读,尤其是 `_finalize_accepted_tree_path` 和 `_compact_accepted_to_front` 的实现,以及条件判断中 page_size 的约束决策。对于使用 speculative decoding 的团队,此 PR 修复了多个隐蔽 bug,建议尽快合入。review 中指出的 `routed_experts_output` 问题需在后续 PR 中跟进。
RTX PRO 6000 部署文档片段更新
此 PR 为纯文档/配置修正,内容已由作者 Fridge003 自行合并,无需精读。但可注意两点设计决策:1) HiCache 在 RTX PRO 6000 上被显式禁用,暗示该硬件不具备 HiCache 兼容性;2) 硬件标识从 GPU 架构名 (sm120) 改为产品名 (rtx6000),更易于用户理解。
DeepSeek V4 CP 支持 Fused MoE,降低内存开销
建议精读本 PR,尤其关注 CP 如何与 MoE 后端解耦的设计。虽然 reviewer 建议的通信抽象未完全落地,但当前的实现已经解决了 H20-3e 部署的核心问题。对于其他 GPU 平台,需要补充对应的 Triton 配置文件。
参与讨论