Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-28
缺陷修复 重要性 5.70 洞察度 4.00

修复FlexAttention掩码方法因绑定self导致跟踪崩溃

值得合入,属于低风险高质量修复。建议读者关注 `@staticmethod` 在避免意外闭包捕获方面的设计模式。

#26512 Fix FA DRAFT_EXTEND_V2 cache extent

原始 PR · 作者 ch-wan · 合并时间 2026-05-28 15:56

缺陷修复 重要性 6.77 洞察度 6.00

修复 FlashAttention DRAFT_EXTEND_V2 缓存范围错误

值得精读。该 PR 展示了注意力后端中缓存范围元数据的精细语义差异,特别是 DRAFT_EXTEND_V2 中 seq_lens 与有效缓存长度不一致时的正确处理方式。设计决策如 per-request 求和取最大值而非简单双 max 求和,体现了对偏斜分布的考量,值得在其他注意力后端实现中参考。

缺陷修复 重要性 7.00 洞察度 6.00

修复CI中FA3的CUDA Graph捕获顺序导致的IMA

建议精读。本 PR 展示了如何通过环境变量 + 后端检测条件性地调整 CUDA Graph 捕获策略,修复一个难以排查的内存越界问题。设计上避免了 test 依赖混入生产代码,值得参考。

#25274 [Refactor] JIT kernel benchmark

原始 PR · 作者 DarkSharpness · 合并时间 2026-05-28 15:49

重构 重要性 8.98 洞察度 7.00

重写JIT kernel benchmark框架,替换triton.testing

建议精读此PR,尤其是`marker.py`中`do_bench`的实现和`parametrize`的pytest风格设计。它为CUDA kernel benchmark提供了一套可复用的轻量方案,值得其他项目借鉴。`bench_qknorm.py`的迁移展示了如何大幅简化代码。

#25829 fix: adapt dots_vlm for transformers v5

原始 PR · 作者 hanwlax · 合并时间 2026-05-28 15:26

缺陷修复 重要性 5.09 洞察度 3.00

适配 DotsVLM 与 transformers v5 API 变更

建议合并。变更简单、风险低,解决已知的兼容性问题。未来可考虑在多模态 processor 基类中统一处理此类版本兼容逻辑,减少重复适配工作。

#24737 Support Flashinfer Cute-DSL MLA attention

原始 PR · 作者 b8zhong · 合并时间 2026-05-28 15:21

功能 重要性 6.99 洞察度 7.00

支持FlashInfer Cute-DSL MLA解码后端,Blackwell性能提升约18%

值得精读,尤其注意workspace隔离的设计模式和speculative decode的回退策略。对于Blackwell上部署MLA模型的团队,建议试用并关注后续FlashInfer优化。

参与讨论