Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-26

#23723 [CI] sgl-kernel: prune dangling images before each wheel build

原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-26 01:44

基础设施重要性 4.54 洞察度 4.00

在 CI 构建前清理 Docker dangling 镜像和卷

建议合并。这是一项低风险的 CI 基础运维改进，直接解决已观测到的磁盘占满问题。

cirun-ci

#23710 [typo] fix typo in parallel_state

原始 PR · 作者 AlbeeSo · 合并时间 2026-04-26 00:33

缺陷修复重要性 4.92 洞察度 1.00

修复 parallel_state.py 中的变量名拼写错误

该 PR 已由 `Kangyan-Zhou` 合并，变更简单且经 review 确认。无需进一步关注。

bugfix

2026-04-25

#23717 jit_kernel: tolerate FA3 kernels without out arg

原始 PR · 作者 mickqian · 合并时间 2026-04-25 23:42

缺陷修复重要性 6.52 洞察度 5.00

FA3 内核调用兼容无 `out` 参数版本

建议精读此 PR 以了解兼容性降级模式，并在未来为 `flash_attn_varlen_func` 和 `flash_attn_with_kvcache` 添加针对 `out` 参数不同内核实现的测试。Review 中添加 warning log 的建议虽未被采纳，但值得在后续维护中加入。

jit-kernelbugfixrun-ci

#23715 docs(DeepSeek-V4): mark h200|big|pd-disagg verified + recipe fixes

原始 PR · 作者 fzyzcjy · 合并时间 2026-04-25 22:49

文档重要性 5.82 洞察度 5.00

标记 H200 big PD 已验证并修复配方

该 PR 主要面向 DeepSeek-V4 部署的 H200 用户，值得精读以理解 h200 big PD 部署的关键配置参数及其背后的技术约束（如 DeepEP buffer 计算、MoE 后端选择、CG 批量大小与内存预算的平衡）。团队开发者在类似多节点高 TP 场景下可参考其中的配置模式。

deepseekdocumentationperformance

#17883 [NPU] Support GGUF quantization for Ascend NPU (dense + MoE)

原始 PR · 作者 TheKonka · 合并时间 2026-04-25 22:16

功能重要性 9.18 洞察度 6.00

在 Ascend NPU 上支持 GGUF 量化模型推理

该 PR 功能完整，设计上采用预去量化策略简化 NPU 推理路径，是一个合理的权衡。建议关注以下设计决策：**预去量化的时机选择**（加载时而非推理时）和 **MoE 权重在 FusedMoE 中的延迟材料化**。对于 NPU 平台的用户，这是一个关键的功能补充。建议团队在未来的量化重构中对 NPU 变体进行统一抽象，以降低维护成本。

npuquantfeature

#23235 [Bugfix] Restore cache-dit support for LTX2

原始 PR · 作者 gjsheu · 合并时间 2026-04-25 18:10

缺陷修复重要性 5.99 洞察度 4.00

修复 LTX2 启用 cache-dit 时因 block 缺少 idx 属性导致的崩溃

本 PR 建议精读，它展示了一个典型的“包装对象丢失原始属性”问题的修复模式。使用 `getattr` 安全回退的方式简单有效，但需注意默认值的语义影响。对于依赖 idx 来精确控制 skip/perturbation 的用户可能需要额外配置。未来的改进可以考虑枚举索引以保持功能完整。

diffusionbugfixscheduling

#23648 [diffusion] model: Fix FLUX.1/2 graph breaks

原始 PR · 作者 avjves · 合并时间 2026-04-25 17:54

性能优化重要性 6.67 洞察度 6.00

修复FLUX模型graph breaks，性能提升达42.6%

该PR值得精读，特别是以下设计决策： - 使用 `@torch.compiler.assume_constant_result` 消除warning引起的graph break，这是一种通用的torch.compile优化技巧。 - 将运行时函数调用提升为模块级常量来避免graph break，需注意平台初始化时机。推荐工程师关注类似模式，在diffusion模型的其他torch.compiled路径中应用。

diffusionperformancejit-kernel

#23698 docs(DeepSeek-V4): bump GB300 Pro PD decode --mem-fraction-static 0.83 → 0.9

原始 PR · 作者 fzyzcjy · 合并时间 2026-04-25 16:35

文档重要性 4.38 洞察度 2.00

GB300 Pro PD decode 默认 mem-fraction 调至 0.9

建议合并。变更简单明确，有实验数据支撑，风险低。团队无需精读，但可关注后续是否有用户反馈该参数调整后的实际效果。