Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-03

#26963 [diffusion] Add Cosmos3 Nano T2V GPU test

原始 PR · 作者 mickqian · 合并时间 2026-06-03 15:42

测试重要性 5.57 洞察度 3.00

添加 Cosmos3 Nano T2V 单 GPU 一致性测试

该 PR 属于常规测试补充，逻辑清晰，无争议，建议合并。若有后续 Cosmos3 系列优化 PR，应同步更新对应的测试基线与阈值。

diffusiontestci

#27049 docs: add DeepSeek-V4 EPLB Waterfill tips

原始 PR · 作者 xutizhou · 合并时间 2026-06-03 15:37

文档重要性 3.85 洞察度 5.00

新增 DeepSeek-V4 EPLB Waterfill 配置文档

值得精读：该文档总结了 DeepEP Waterfill 的关键参数和约束，对使用 DeepSeek-V4 进行 EP 部署的团队有直接指导意义。设计上明确了实验性特征与兼容性边界，体现了良好的文档实践。

documentationdeepseekmoe

#24762 [AMD] fix(triton-mla): cap max_kv_splits at 256 on gfx942 (Kimi-K2.6 hang)

原始 PR · 作者 bingxche · 合并时间 2026-06-03 15:13

缺陷修复重要性 6.90 洞察度 6.00

限制gfx942上max_kv_splits为256，修复Kimi-K2.6挂起

值得精读。设计决策：针对特定SKU硬编码上限是否优于动态内存预算？后续若能统一为“两倍最大上下文分割数”则更通用。此外，`is_gfx942_supported`的引入为后续AMD特殊处理提供了范例。

bugfixamdperformance

#24659 Optimize streaming detokenizer updates

原始 PR · 作者 inkcherry · 合并时间 2026-06-03 14:44

性能优化重要性 8.03 洞察度 6.00

优化流式 detokenizer 更新延迟合并并跳过空解码

值得精读，尤其关注 `DecodeStatus` 的延迟块累积设计——它用极小的内存代价消除了流式场景下常见的 O(N²) 瓶颈，是轻量性能优化的范例。

performancerefactorstreaming

#27004 fix(disagg): correct DSA/SWA state-page transfer mismatch in PD disaggregation

原始 PR · 作者 kflansburg · 合并时间 2026-06-03 14:33

缺陷修复重要性 6.75 洞察度 5.00

修复 PD 分离中 DSA/SWA 状态页传输不匹配

建议阅读者精读该 PR，了解如何通过边界防御和长度限制修正复杂的分布式传输 bug。`group_concurrent_contiguous` 的防御性设计思路值得参考。对于 DSA 模型分离部署团队，应尽快合并。

bugfixkv-cachedisaggregation

#27068 [diffusion] Polish realtime WebUI waiting state

原始 PR · 作者 mickqian · 合并时间 2026-06-03 14:29

其他重要性 5.10 洞察度 2.00

优化实时预览等待状态，用旋转圆环替代点脉冲动画

对于关注实时 WebUI 开发的工程师，可以了解其测试同步方法；对于其他开发者，此 PR 价值不大，无需精读。

diffusionrefactortest

#24195 Fix flashinfer autotune oom glm51

原始 PR · 作者 kpham-sgl · 合并时间 2026-06-03 14:28

缺陷修复重要性 6.90 洞察度 5.00

修复 FlashInfer 自动调优时因 lm_head 导致 OOM

此 PR 设计简洁，修复明确，值得阅读以了解如何通过上下文管理器在特定路径跳过计算，避免 OOM。

bugfixperformancekv-cache

#27116 Revert "Fix hybrid linear attention misrouting plain-RadixAttention linear layers to the full backend (Ring-2.5-1T)"

原始 PR · 作者 ch-wan · 合并时间 2026-06-03 14:27

缺陷修复重要性 6.59 洞察度 5.00

回退 PR #26623，恢复老版路由逻辑

建议精读 `_is_full_attn` 的回退逻辑和 Bailing 模型的标记方式。该 PR 体现了 hybrid attention 路由在模型兼容性与正确性之间的权衡，值得关注后续是否有更统一的方案。

bugfixattentiondeepseek

第 23 / 357 页 · 共 2850 条

上一页 1 … 21 22 23 24 25 … 357 下一页