Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-05

#27032 [NPU] add GLM model best practice docs

原始 PR · 作者 Hide-on-bushsh · 合并时间 2026-06-05 14:27

文档重要性 5.23 洞察度 3.00

新增 GLM 模型 NPU 最佳实践文档，修复链接和路径

对于在 Ascend NPU 上部署 GLM 模型的用户，本 PR 提供的文档具有直接参考价值。对于文档维护者，可以关注 review 中对锚点 slug 化处理和硬编码路径替换的讨论，作为文档编写最佳实践。建议合并后对锚点链接进行自动化校验，防止未来因渲染规则变化导致失效。

documentationnpu

#27330 [UnifiedTree]: Fix CP Reduce

原始 PR · 作者 hzh0425 · 合并时间 2026-06-05 14:03

重构重要性 6.13 洞察度 4.00

修复 CP 模式下 all_reduce/barrier 的通信组

此 PR 是必要的修复，设计清晰，推荐合入。可作为统一通信组调用的好例子。

bugfixschedulingconsistency

#27320 [perf] parallelize create_flashmla_kv_indices over page-blocks

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-06-05 13:11

性能优化重要性 6.47 洞察度 5.00

将 FlashMLA KV 索引构建并行化，长上下文延迟从 15us 降至 1-2us

值得精读 kernel 层面的并行化模式。此 PR 展示了如何通过简单的 grid 维度扩展将显式循环转换为 GPU 块级并行，是注意力后端性能优化的典型技巧。

performancemlablackwell

#26859 FrozenKVMTPVerifyInput: add _draft_preprocess_idle call for when all requests in the verify batch finish in the same iteration

原始 PR · 作者 akelch11 · 合并时间 2026-06-05 12:47

缺陷修复重要性 7.23 洞察度 4.00

修复Frozen-KV MTP验证批量全部完成时缺少merge_batch的崩溃

建议精读此PR，了解Frozen-KV MTP中verify和draft输入的生命周期管理。其中的空闲输入处理模式（`create_idle_input`）在其他推测解码实现中也有类似应用，值得参考。对于使用Frozen-KV MTP的团队，建议尽快合并。

bugfixspeculative-decodingtest

#27335 6-5 nightly failed test case fix

原始 PR · 作者 liuxianglong17 · 合并时间 2026-06-05 11:39

缺陷修复重要性 3.49 洞察度 2.00

修复 Ascend NPU 夜间测试超时和 warning 问题

该 PR 为常规维护性修复，无深度技术洞察，可快速合并。

bugfixnpudeepseek

#27308 docs: sync legacy docs/-only updates into docs_new (Mintlify)

原始 PR · 作者 zijiexia · 合并时间 2026-06-05 10:45

文档重要性 5.12 洞察度 2.00

同步遗留文档至 Mintlify 站点

本 PR 为纯文档同步操作，技术复杂度低，但具有重要的维护意义。建议所有文档贡献者阅读此 PR 的 commits 列表以了解如何确保文档一致性。值得关注的决策：被跳过的 PR 清单和原因（避免回退更新的内容）。

documentationquantnpu

#27327 Fix MMMU VLM eval max_tokens for CoT prompt

原始 PR · 作者 yhyang201 · 合并时间 2026-06-05 10:28

缺陷修复重要性 3.81 洞察度 2.00

修复 MMMU VLM 评估 max_tokens 过短导致全部失败

建议合入。这是一个有明确回归根因的测试修复，变更量极小，且已在 H200 上验证所有模型通过阈值。合并后应观察夜间测试是否稳定通过。

bugfixtestmultimodal

#23280 [XPU] Enable Gemma 4 E2B / E4B / 31B/ 26B-A4B on Intel XPU

原始 PR · 作者 jmunetong · 合并时间 2026-06-05 10:05

功能重要性 8.37 洞察度 6.00

在 Intel XPU 上启用 Gemma 4 系列模型

**建议精读**：`xpu_backend.py` 中的 SWA 页表翻译设计和 `gemma4_fused_ops.py` 中的路由融合 kernel，这两个是 XPU 后端适配混合注意力模型的关键创新。整体架构清晰，改动自包含，值得参考。**值得关注的决策**：将 fused QKV RMSNorm 断言放宽为 `is_cuda or is_xpu` 并依赖 Triton JIT 的设备无关性，以及通过 `fuse_scale` 将 scale 折叠进 norm.weight 减少 kernel launch。

xpuintelfeature

第 10 / 357 页 · 共 2850 条

上一页 1 … 8 9 10 11 12 … 357 下一页