Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-06-02
基础设施 重要性 3.50 洞察度 2.00

手动全量 CI 运行启用完整并行度

该 PR 是小而有效的 CI 改进,建议合并。对于 CI 维护者,该逻辑值得参考,作为扩展 CI 并行度控制的模式。

缺陷修复 重要性 7.22 洞察度 4.00

回退 spec v2 topk>1 树形 draft 支持,修复默认行为破坏

阅读者应关注此 revert 背后的测试覆盖率不足问题:原始 PR #26866 的 CI 状态为 ❌,仍被合并,导致默认行为破坏。建议加强 speculative 模块的自动化测试,特别是 topk>1 与 spec v2 的组合场景。回退本身逻辑清晰,值得参考的是 `fill_bonus_tokens` stride 参数的修正——用 `accept_index.shape[1]` 而非 `speculative_num_draft_tokens` 是导致 topk>1 错误的根本原因之一。

#23179 [LoRA] add lora chunked req test and fix

原始 PR · 作者 glenliu21 · 合并时间 2026-06-02 07:25

缺陷修复 重要性 4.58 洞察度 3.00

修复 LoRA 分块请求槽位遗漏

值得阅读以了解 LoRA 调度中的分块请求处理陷阱。虽然代码改动极小,但反映了状态同步容易遗漏的典型场景。

缺陷修复 重要性 7.58 洞察度 6.00

修复 HiCache radix 树节点分片导致的 KV 缓存数据丢失

值得精读,尤其是 `_concat_split_chain` 的设计思路——如何将 Python 引用语义与不可变快照之间的冲突转化为廉价的链式恢复。这种延迟恢复模式对于其他先入队再可能变动的场景有借鉴意义。建议补充正式的单元测试,覆盖节点分割后写穿、多次分割、bigram 模式等场景。

性能优化 重要性 7.67 洞察度 5.00

跳过 topk=1 时 draft_forward 的 cat/topk/sort/gather

值得精读。展示了如何利用数学等价性消除 GPU 内核调用,是性能优化的典型案例。`_rebuild_topk1_chain_buffers` 的设计和与自适应推测解码的配合值得关注。测试覆盖充分,可放心合入。

功能 重要性 7.47 洞察度 6.00

支持 page_size=1 时 spec v2 树形推导 (topk>1)

值得精读,尤其是 `_finalize_accepted_tree_path` 和 `_compact_accepted_to_front` 的实现,以及条件判断中 page_size 的约束决策。对于使用 speculative decoding 的团队,此 PR 修复了多个隐蔽 bug,建议尽快合入。review 中指出的 `routed_experts_output` 问题需在后续 PR 中跟进。

#26968 docs: update RTX PRO 6000 deployment snippet

原始 PR · 作者 Fridge003 · 合并时间 2026-06-02 05:34

文档 重要性 5.65 洞察度 2.00

RTX PRO 6000 部署文档片段更新

此 PR 为纯文档/配置修正,内容已由作者 Fridge003 自行合并,无需精读。但可注意两点设计决策:1) HiCache 在 RTX PRO 6000 上被显式禁用,暗示该硬件不具备 HiCache 兼容性;2) 硬件标识从 GPU 架构名 (sm120) 改为产品名 (rtx6000),更易于用户理解。

功能 重要性 7.86 洞察度 6.00

DeepSeek V4 CP 支持 Fused MoE,降低内存开销

建议精读本 PR,尤其关注 CP 如何与 MoE 后端解耦的设计。虽然 reviewer 建议的通信抽象未完全落地,但当前的实现已经解决了 H20-3e 部署的核心问题。对于其他 GPU 平台,需要补充对应的 Triton 配置文件。

参与讨论