Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-06-05

#27032 [NPU] add GLM model best practice docs

原始 PR · 作者 Hide-on-bushsh · 合并时间 2026-06-05 14:27

文档 重要性 5.23 洞察度 3.00

新增 GLM 模型 NPU 最佳实践文档,修复链接和路径

对于在 Ascend NPU 上部署 GLM 模型的用户,本 PR 提供的文档具有直接参考价值。对于文档维护者,可以关注 review 中对锚点 slug 化处理和硬编码路径替换的讨论,作为文档编写最佳实践。建议合并后对锚点链接进行自动化校验,防止未来因渲染规则变化导致失效。

#27330 [UnifiedTree]: Fix CP Reduce

原始 PR · 作者 hzh0425 · 合并时间 2026-06-05 14:03

重构 重要性 6.13 洞察度 4.00

修复 CP 模式下 all_reduce/barrier 的通信组

此 PR 是必要的修复,设计清晰,推荐合入。可作为统一通信组调用的好例子。

性能优化 重要性 6.47 洞察度 5.00

将 FlashMLA KV 索引构建并行化,长上下文延迟从 15us 降至 1-2us

值得精读 kernel 层面的并行化模式。此 PR 展示了如何通过简单的 grid 维度扩展将显式循环转换为 GPU 块级并行,是注意力后端性能优化的典型技巧。

修复Frozen-KV MTP验证批量全部完成时缺少merge_batch的崩溃

建议精读此PR,了解Frozen-KV MTP中verify和draft输入的生命周期管理。其中的空闲输入处理模式(`create_idle_input`)在其他推测解码实现中也有类似应用,值得参考。对于使用Frozen-KV MTP的团队,建议尽快合并。

#27335 6-5 nightly failed test case fix

原始 PR · 作者 liuxianglong17 · 合并时间 2026-06-05 11:39

缺陷修复 重要性 3.49 洞察度 2.00

修复 Ascend NPU 夜间测试超时和 warning 问题

该 PR 为常规维护性修复,无深度技术洞察,可快速合并。

文档 重要性 5.12 洞察度 2.00

同步遗留文档至 Mintlify 站点

本 PR 为纯文档同步操作,技术复杂度低,但具有重要的维护意义。建议所有文档贡献者阅读此 PR 的 commits 列表以了解如何确保文档一致性。值得关注的决策:被跳过的 PR 清单和原因(避免回退更新的内容)。

#27327 Fix MMMU VLM eval max_tokens for CoT prompt

原始 PR · 作者 yhyang201 · 合并时间 2026-06-05 10:28

缺陷修复 重要性 3.81 洞察度 2.00

修复 MMMU VLM 评估 max_tokens 过短导致全部失败

建议合入。这是一个有明确回归根因的测试修复,变更量极小,且已在 H200 上验证所有模型通过阈值。合并后应观察夜间测试是否稳定通过。

功能 重要性 8.37 洞察度 6.00

在 Intel XPU 上启用 Gemma 4 系列模型

**建议精读**:`xpu_backend.py` 中的 SWA 页表翻译设计和 `gemma4_fused_ops.py` 中的路由融合 kernel,这两个是 XPU 后端适配混合注意力模型的关键创新。整体架构清晰,改动自包含,值得参考。**值得关注的决策**:将 fused QKV RMSNorm 断言放宽为 `is_cuda or is_xpu` 并依赖 Triton JIT 的设备无关性,以及通过 `fuse_scale` 将 scale 折叠进 norm.weight 减少 kernel launch。

参与讨论