Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-02

#26939 [Bug Fix][HiCache] Drop @lru_cache on UnifiedTreeNode.get_prefix_hash_values

原始 PR · 作者 vuuihc · 合并时间 2026-06-02 12:38

缺陷修复重要性 5.82 洞察度 5.00

修复 HiCache 统一 radix 树缓存突变

值得精读。这是一个典型的多层抽象遗产 bug 修复：统一树从老树复制代码时复制了已被发现有害的装饰器。建议回顾 #26177 和 #26062 的演进历史，理解如何避免类似复制引发的二重 bug。

bugfixhicachekv-cache

#26384 [Docs] GLM-4.7 cookbook: add NVIDIA Blackwell (B200, GB200) + NVFP4 sections

原始 PR · 作者 thanhhao98 · 合并时间 2026-06-02 11:47

文档重要性 7.18 洞察度 6.00

GLM-4.7 文档新增 Blackwell GPU 和 NVFP4 量化支持

该 PR 值得精读，尤其是 `glm-47-deployment.jsx` 中 SUPPORT 矩阵驱动的约束逻辑，是一种将硬件兼容性规则集中管理、自动 fallback 的可复用文档组件设计模式。对于负责部署指南和交互式命令生成器的工程师具有参考价值。建议在类似文档场景中推广。

documentationblackwell

#26473 [MoE] Support BF16 standard A2A with DeepGEMM runner

原始 PR · 作者 popsiclexu · 合并时间 2026-06-02 11:40

缺陷修复重要性 6.64 洞察度 6.00

修复DeepGEMM runner中BF16 A2A和专家0遗漏

建议精读。该 PR 解决了实际运行中的关键问题，并展示了在 Triton kernel 中如何安全地提升数值精度（FP32 累积）。设计决策值得参考，尤其是条件量化路径的选择。如果团队在使用 DeepGEMM 运行时，建议尽快合并此 PR 并做回归验证。

moebugfixperformance

#25521 [PD] docs: clarify disaggregation IB device formats

原始 PR · 作者 stmatengss · 合并时间 2026-06-02 11:38

文档重要性 4.12 洞察度 2.00

更新 IB 设备格式的文档与 CLI 帮助

此 PR 是典型的功能文档补全，建议阅读以了解 PD 分解中 IB 设备配置的三种格式。但需注意文档可能超前于实现，建议结合关联 PR #26114 一并审查验证逻辑是否已适配。

documentationinfra

#26567 Speed up DeepGEMM JIT warmup with per-PP-rank parallel compile

原始 PR · 作者 whybeyoung · 合并时间 2026-06-02 10:51

性能优化重要性 7.48 洞察度 6.00

PP 并行 DeepGEMM JIT 预热，启动时间减少约 60%

建议精读以下设计决策： 1. batch size 的硬件感知推导方法（从 SM 数量和 block_m 推算 n_splits 区间），可推广到其他类似场景。 2. `_dummy_run` 的 `forward_mode_override` 设计，解耦了 forward mode 与 `is_generation`，提高可测试性。 3. 对 PD 分解模式的优雅处理（根据 `disaggregation_mode` 跳过不必要的 DECODE/EXTEND）。 4. 将并行预热逻辑封装在 `compile_utils.py`，保持 `kernel_warmup` 的简洁性。

performancedeepseekjit-kernel

#23273 [NVIDIA] [GDN] Enable FlashInfer MTP verify on SM100+ (Blackwell)

原始 PR · 作者 wenscarl · 合并时间 2026-06-02 09:56

功能重要性 7.71 洞察度 5.00

启用FlashInfer GDN MTP验证于SM100+

建议关注 gdn_flashinfer.py 中 _mtp_bf16_adapted 函数的适配技巧（中间状态切片、A_log float 转换），以及测试文件如何通过抽取公共参数和工具函数降低重复代码。该 PR 设计简洁，适合作为跨硬件后端子类化的参考案例。

speculative-decodingfeatureperformance

#26990 ci: disable cross-job fast-fail for run_all_tests dispatch

原始 PR · 作者 hnyls2002 · 合并时间 2026-06-02 09:32

基础设施重要性 2.95 洞察度 2.00

禁用全量 CI 手动触发的跨任务快速失败

值得关注 CI 流程的演化，但本身技术含量低，普通工程师阅读即可。

ciinfra

#25813 docs(cookbook): port popular model usage guides into cookbook pages

原始 PR · 作者 prakashkagitha · 合并时间 2026-06-02 08:41

文档重要性 6.54 洞察度 4.00

将11个旧文档页面的模型用法移植到 cookbook

值得精读，展示了大规模文档迁移的完整流程和审核实践，尤其适合需要合并整理知识库的场景。

documentationdeepseeknpu

第 32 / 357 页 · 共 2850 条

上一页 1 … 30 31 32 33 34 … 357 下一页