Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-06

#27360 [Spec] Fix fa3 EAGLE draft-decode expand page_table scatter OOB for topk>1 + page_size>1

原始 PR · 作者 hnyls2002 · 合并时间 2026-06-06 15:24

缺陷修复重要性 6.26 洞察度 6.00

修复 fa3 EAGLE draft-decode page_table scatter OOB

值得合并与精读。本 PR 修复了一个隐蔽的静默内存损坏 bug，展示了 cuda-graph 元数据构造中一个微妙的维度不匹配问题。建议关注：1) `cache_loc` 切片与 `page_size == 1` 分支的对齐设计；2) 始终启用断言作为安全网的做法；3) revert 开关的注册方式，这是一种低成本 A/B 调试基础设施。

bugfixspeculative-decodingattention

#25100 [model] Apertus Tool/Function and Reasoning parser

原始 PR · 作者 EduardDurech · 合并时间 2026-06-06 15:04

功能重要性 9.00 洞察度 5.00

新增 Apertus2509 工具调用与推理块解析器

该 PR 设计思路清晰，遵循了现有解析器框架的扩展模式，是添加新模型格式的良好范例。建议阅读 `apertus2509_detector.py` 和 `reasoning_parser.py` 的源码，了解如何集成 tool call 与 reasoning 解析。对于需要支持相似自定义格式的开发者，该 PR 提供了可复用的模式。

featuredocumentationtest

#27403 [attn backend] clean legacy init_mha_chunk_metadata in trtllm_mla backend

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-06-06 14:30

重构重要性 5.08 洞察度 2.00

清理 trtllm_mla backend 中冗余的 init_mha_chunk_metadata 方法

可直接合并，改动清晰、风险低。但建议作者简单说明为何原冗余定义中参数不一致，以便他人理解历史背景。

refactorattentionblackwell

#27419 fix test_qwen3_next_models flaky

原始 PR · 作者 hanming-lu · 合并时间 2026-06-06 14:26

缺陷修复重要性 4.01 洞察度 2.00

调大 KL 散度阈值修复测试 flaky

变更简单直接，无需精读。可作为测试稳定性维护的参考案例。

testbugfix

#26588 Optimize Gemma4 H200 MoE and extend attention

原始 PR · 作者 BBuf · 合并时间 2026-06-06 14:14

性能优化重要性 7.16 洞察度 7.00

优化 Gemma4 H200 MoE 与 extend attention 性能

推荐精读。尤其注意 kernel dedup 设计方法和 BF16 精度分析。对于 Gemma4 部署有直接收益；对编写数值稳定的 Triton kernel 有参考价值。

performanceattentionmoe

#24756 Optimize ngram decode token table update

原始 PR · 作者 BBuf · 合并时间 2026-06-06 14:13

性能优化重要性 7.94 洞察度 6.00

新增 ngram decode 专用快速更新 kernel

值得精读，展示如何通过简化 kernel 假设实现数十倍性能提升。尤其关注 review 中对 int64 溢出的讨论——这是一个在长上下文场景中容易被忽略的缺陷。

performancejit-kerneltest

#27401 [Cohere2Moe] Enable flashinfer_trtllm NVFP4 fused-MoE via SigmoidRenorm routing

原始 PR · 作者 zijiexia · 合并时间 2026-06-06 13:49

功能重要性 6.44 洞察度 5.00

启用 Cohere2MoE NVFP4 快速 MoE 路由

值得精读：该 PR 展示了如何通过枚举对齐和参数传递解锁后端能力，是跨模块集成的典型范例。开发者可关注 RoutingMethodType 与 flashinfer 上游的同步策略。

quantperformancemoe

#27248 [Doc][CPU]Update Cookbook with Xeon support info

原始 PR · 作者 ZailiWang · 合并时间 2026-06-06 13:39

文档重要性 7.02 洞察度 5.00

在cookbook中更新Xeon CPU支持信息

建议阅读该 PR，特别是 `disabledWhen` 和 `condition()` 的设计模式，展示了如何优雅地组织硬件依赖的 UI 选项。同时注意交叉检查多个模型页面的一致性，确保命令参数的准确性。

documentationdeepseekcpu

第 4 / 357 页 · 共 2850 条

上一页 1 2 3 4 5 … 357 下一页