Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-28

#26515 Allow Optional key/value in unified_attention_with_output split-op (MLA absorb fix)

原始 PR · 作者 ch-wan · 合并时间 2026-05-28 16:04

缺陷修复重要性 5.55 洞察度 4.00

修复MLA吸收路径在分段CUDA图中因key/value为None崩溃

值得精读，特别是理解分段 CUDA 图（PCG/BCG）与 MLA 吸收路径的交互。设计上保持与非分段路径的兼容性，但缺少单元测试验证是一个风险。

bugfixattentiondeepseek

#26514 Expose Flex attention causal/decode masks as static methods

原始 PR · 作者 ch-wan · 合并时间 2026-05-28 16:03

缺陷修复重要性 5.70 洞察度 4.00

修复FlexAttention掩码方法因绑定self导致跟踪崩溃

值得合入，属于低风险高质量修复。建议读者关注 `@staticmethod` 在避免意外闭包捕获方面的设计模式。

bugfixattention

#26512 Fix FA DRAFT_EXTEND_V2 cache extent

原始 PR · 作者 ch-wan · 合并时间 2026-05-28 15:56

缺陷修复重要性 6.77 洞察度 6.00

修复 FlashAttention DRAFT_EXTEND_V2 缓存范围错误

值得精读。该 PR 展示了注意力后端中缓存范围元数据的精细语义差异，特别是 DRAFT_EXTEND_V2 中 seq_lens 与有效缓存长度不一致时的正确处理方式。设计决策如 per-request 求和取最大值而非简单双 max 求和，体现了对偏斜分布的考量，值得在其他注意力后端实现中参考。

bugfixattentiondeepseek

#26412 [Bug] Forward fixed_split_size in SWA / cross-attention paths of FlashInfer backend

原始 PR · 作者 charlotte12l · 合并时间 2026-05-28 15:52

缺陷修复重要性 5.55 洞察度 4.00

修复 FlashInfer SWA/交叉注意力路径遗漏 deterministic 参数

建议合并。该 PR 修复了一个隐蔽的确定性保证缺陷，改动量小，风险低，且作者已通过内部 SWA 模型验证了修复效果。

bugfixattentionconsistency

#26550 [CI] FA3: ascending cuda-graph capture to avoid varlen workspace IMA (#26532)

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-28 15:50

缺陷修复重要性 7.00 洞察度 6.00

修复CI中FA3的CUDA Graph捕获顺序导致的IMA

建议精读。本 PR 展示了如何通过环境变量 + 后端检测条件性地调整 CUDA Graph 捕获策略，修复一个难以排查的内存越界问题。设计上避免了 test 依赖混入生产代码，值得参考。

bugfixciattention

#25274 [Refactor] JIT kernel benchmark

原始 PR · 作者 DarkSharpness · 合并时间 2026-05-28 15:49

重构重要性 8.98 洞察度 7.00

重写JIT kernel benchmark框架，替换triton.testing

建议精读此PR，尤其是`marker.py`中`do_bench`的实现和`parametrize`的pytest风格设计。它为CUDA kernel benchmark提供了一套可复用的轻量方案，值得其他项目借鉴。`bench_qknorm.py`的迁移展示了如何大幅简化代码。

jit-kernelrefactorperformance

#25829 fix: adapt dots_vlm for transformers v5

原始 PR · 作者 hanwlax · 合并时间 2026-05-28 15:26

缺陷修复重要性 5.09 洞察度 3.00

适配 DotsVLM 与 transformers v5 API 变更

建议合并。变更简单、风险低，解决已知的兼容性问题。未来可考虑在多模态 processor 基类中统一处理此类版本兼容逻辑，减少重复适配工作。

bugfixmultimodaldependencies

#24737 Support Flashinfer Cute-DSL MLA attention

原始 PR · 作者 b8zhong · 合并时间 2026-05-28 15:21

功能重要性 6.99 洞察度 7.00

支持FlashInfer Cute-DSL MLA解码后端，Blackwell性能提升约18%

值得精读，尤其注意workspace隔离的设计模式和speculative decode的回退策略。对于Blackwell上部署MLA模型的团队，建议试用并关注后续FlashInfer优化。

blackwellfeatureperformance

第 57 / 357 页 · 共 2850 条

上一页 1 … 55 56 57 58 59 … 357 下一页