Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-02

#26986 ci: full parallelism for run_all_tests dispatch

原始 PR · 作者 hnyls2002 · 合并时间 2026-06-02 08:40

基础设施重要性 3.50 洞察度 2.00

手动全量 CI 运行启用完整并行度

该 PR 是小而有效的 CI 改进，建议合并。对于 CI 维护者，该逻辑值得参考，作为扩展 CI 并行度控制的模式。

infraci

#26981 Revert "Support spec v2 tree drafting (eagle topk>1) with page_size==1"

原始 PR · 作者 hnyls2002 · 合并时间 2026-06-02 08:16

缺陷修复重要性 7.22 洞察度 4.00

回退 spec v2 topk>1 树形 draft 支持，修复默认行为破坏

阅读者应关注此 revert 背后的测试覆盖率不足问题：原始 PR #26866 的 CI 状态为 ❌，仍被合并，导致默认行为破坏。建议加强 speculative 模块的自动化测试，特别是 topk>1 与 spec v2 的组合场景。回退本身逻辑清晰，值得参考的是 `fill_bonus_tokens` stride 参数的修正——用 `accept_index.shape[1]` 而非 `speculative_num_draft_tokens` 是导致 topk>1 错误的根本原因之一。

speculative-decodingbugfixscheduling

#23179 [LoRA] add lora chunked req test and fix

原始 PR · 作者 glenliu21 · 合并时间 2026-06-02 07:25

缺陷修复重要性 4.58 洞察度 3.00

修复 LoRA 分块请求槽位遗漏

值得阅读以了解 LoRA 调度中的分块请求处理陷阱。虽然代码改动极小，但反映了状态同步容易遗漏的典型场景。

lorabugfixscheduling

#16946 [HiCache] Prevent KV cache data loss when radix tree node is split b…

原始 PR · 作者 chenkaiyue · 合并时间 2026-06-02 06:58

缺陷修复重要性 7.58 洞察度 6.00

修复 HiCache radix 树节点分片导致的 KV 缓存数据丢失

值得精读，尤其是 `_concat_split_chain` 的设计思路——如何将 Python 引用语义与不可变快照之间的冲突转化为廉价的链式恢复。这种延迟恢复模式对于其他先入队再可能变动的场景有借鉴意义。建议补充正式的单元测试，覆盖节点分割后写穿、多次分割、bigram 模式等场景。

hicachebugfixkv-cache

#26424 [Perf][Spec Decoding] Skip cat/topk/sort/gather in draft_forward for topk=1

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-06-02 06:37

性能优化重要性 7.67 洞察度 5.00

跳过 topk=1 时 draft_forward 的 cat/topk/sort/gather

值得精读。展示了如何利用数学等价性消除 GPU 内核调用，是性能优化的典型案例。`_rebuild_topk1_chain_buffers` 的设计和与自适应推测解码的配合值得关注。测试覆盖充分，可放心合入。

performancespeculative-decodingtest

#26866 Support spec v2 tree drafting (eagle topk>1) with page_size==1

原始 PR · 作者 hnyls2002 · 合并时间 2026-06-02 06:37

功能重要性 7.47 洞察度 6.00

支持 page_size=1 时 spec v2 树形推导 (topk>1)

值得精读，尤其是 `_finalize_accepted_tree_path` 和 `_compact_accepted_to_front` 的实现，以及条件判断中 page_size 的约束决策。对于使用 speculative decoding 的团队，此 PR 修复了多个隐蔽 bug，建议尽快合入。review 中指出的 `routed_experts_output` 问题需在后续 PR 中跟进。

speculative-decodingbugfixperformance

#26968 docs: update RTX PRO 6000 deployment snippet

原始 PR · 作者 Fridge003 · 合并时间 2026-06-02 05:34

文档重要性 5.65 洞察度 2.00

RTX PRO 6000 部署文档片段更新

此 PR 为纯文档/配置修正，内容已由作者 Fridge003 自行合并，无需精读。但可注意两点设计决策：1) HiCache 在 RTX PRO 6000 上被显式禁用，暗示该硬件不具备 HiCache 兼容性；2) 硬件标识从 GPU 架构名 (sm120) 改为产品名 (rtx6000)，更易于用户理解。

documentationdeepseekinfra

#24947 DeepSeek V4: Support context parallelism with fused MoE (non-DeepEP)

原始 PR · 作者 xu-yfei · 合并时间 2026-06-02 05:25

功能重要性 7.86 洞察度 6.00

DeepSeek V4 CP 支持 Fused MoE，降低内存开销

建议精读本 PR，尤其关注 CP 如何与 MoE 后端解耦的设计。虽然 reviewer 建议的通信抽象未完全落地，但当前的实现已经解决了 H20-3e 部署的核心问题。对于其他 GPU 平台，需要补充对应的 Triton 配置文件。

deepseekmoefeature

第 33 / 357 页 · 共 2850 条

上一页 1 … 31 32 33 34 35 … 357 下一页