Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-06-02
缺陷修复 重要性 5.82 洞察度 5.00

修复 HiCache 统一 radix 树缓存突变

值得精读。这是一个典型的多层抽象遗产 bug 修复:统一树从老树复制代码时复制了已被发现有害的装饰器。建议回顾 #26177 和 #26062 的演进历史,理解如何避免类似复制引发的二重 bug。

文档 重要性 7.18 洞察度 6.00

GLM-4.7 文档新增 Blackwell GPU 和 NVFP4 量化支持

该 PR 值得精读,尤其是 `glm-47-deployment.jsx` 中 SUPPORT 矩阵驱动的约束逻辑,是一种将硬件兼容性规则集中管理、自动 fallback 的可复用文档组件设计模式。对于负责部署指南和交互式命令生成器的工程师具有参考价值。建议在类似文档场景中推广。

缺陷修复 重要性 6.64 洞察度 6.00

修复DeepGEMM runner中BF16 A2A和专家0遗漏

建议精读。该 PR 解决了实际运行中的关键问题,并展示了在 Triton kernel 中如何安全地提升数值精度(FP32 累积)。设计决策值得参考,尤其是条件量化路径的选择。如果团队在使用 DeepGEMM 运行时,建议尽快合并此 PR 并做回归验证。

文档 重要性 4.12 洞察度 2.00

更新 IB 设备格式的文档与 CLI 帮助

此 PR 是典型的功能文档补全,建议阅读以了解 PD 分解中 IB 设备配置的三种格式。但需注意文档可能超前于实现,建议结合关联 PR #26114 一并审查验证逻辑是否已适配。

性能优化 重要性 7.48 洞察度 6.00

PP 并行 DeepGEMM JIT 预热,启动时间减少约 60%

建议精读以下设计决策: 1. batch size 的硬件感知推导方法(从 SM 数量和 block_m 推算 n_splits 区间),可推广到其他类似场景。 2. `_dummy_run` 的 `forward_mode_override` 设计,解耦了 forward mode 与 `is_generation`,提高可测试性。 3. 对 PD 分解模式的优雅处理(根据 `disaggregation_mode` 跳过不必要的 DECODE/EXTEND)。 4. 将并行预热逻辑封装在 `compile_utils.py`,保持 `kernel_warmup` 的简洁性。

功能 重要性 7.71 洞察度 5.00

启用FlashInfer GDN MTP验证于SM100+

建议关注 gdn_flashinfer.py 中 _mtp_bf16_adapted 函数的适配技巧(中间状态切片、A_log float 转换),以及测试文件如何通过抽取公共参数和工具函数降低重复代码。该 PR 设计简洁,适合作为跨硬件后端子类化的参考案例。

参与讨论