Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-05

#27073 [router] Configure experimental sgl-router via CLI flags instead of a config file

原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-06-05 10:02

重构重要性 9.18 洞察度 7.00

sgl-router 从配置文件驱动改为纯 CLI 标志驱动

值得精读，特别是 CLI 设计原则（互斥、条件校验、类型驱动验证）以及从 serde 迁移到 clap 的平滑过渡。对设计 Rust CLI 应用有参考价值。

refactorinfradocumentation

#27264 [UnifiedTree]: Sync sidecar component hits across TP ranks and make SWA prefetch all-or-nothing

原始 PR · 作者 hzh0425 · 合并时间 2026-06-05 09:23

功能重要性 7.64 洞察度 6.00

跨TP同步sidecar命中，SWA预取全或无

值得精读 `unified_radix_cache.py` 中打包 all_reduce 的设计模式，可复用至其他 sidecar 组件。`swa_component.py` 的全或无逻辑可作为类似“原子预取”实现的参考。但需关注 review 中遗留的 `pool_storage_result` 保护问题和 sidecar 顺序假设，建议后续修复。

hicacheconsistencyattention

#25002 [spec_v2] Enable trtllm_mha draft-extend CUDA graph with v2 semantics

原始 PR · 作者 YAMY1234 · 合并时间 2026-06-05 08:50

功能重要性 6.60 洞察度 5.00

为 trtllm_mha 启用 spec_v2 draft-extend CUDA graph

值得精读。本 PR 展示了在复杂推测解码路径中启用 CUDA graph 的完整思路：白名单控制、metadata 语法适配、合理精简 graph 内部计算量以避免浪费，以及对应的测试合约更新。对于理解 speculative v2、TRTLLM backend 以及 CUDA graph 的正确使用很有参考价值。

speculative-decodingfeatureperformance

#27316 fix(attn): delegate init_mha_chunk_metadata in HybridLinearAttnBackend

原始 PR · 作者 ch-wan · 合并时间 2026-06-05 08:44

缺陷修复重要性 7.10 洞察度 5.00

修复混合MLA模型预填充崩溃，委托init_mha_chunk_metadata到全注意力后端

建议精读此 PR，特别是 `init_mha_chunk_metadata` 的委托设计。虽然修复简单，但揭示了后端接口不一致的隐患，值得在后续重构中统一。同时，可扩展测试覆盖到其他 MLA 后端（TRTLLM、CuteDSL），并在委托逻辑中增加参数适配。

bugfixattentionmla

#27321 docs(cookbook): restore Gemma 4 transformers commit pin

原始 PR · 作者 JustinTong0323 · 合并时间 2026-06-05 08:43

缺陷修复重要性 2.77 洞察度 2.00

恢复 Gemma 4 cookbook 中 transformers 提交锁定

可直接合并。该修复简单且关键，避免用户因缺少 pin 而遇到模型加载失败。

documentationbugfix

#27322 docs: sync LMSYS SGLang blog cards

原始 PR · 作者 sglang-bot · 合并时间 2026-06-05 08:42

其他重要性 3.44 洞察度 1.00

自动同步 LMSYS 博客卡片到首页

该 PR 为日常文档维护，无需重点关注。

documentationci

#27318 ci: open the LMSYS blog-sync PR with the repo sglang-bot

原始 PR · 作者 zijiexia · 合并时间 2026-06-05 08:35

基础设施重要性 3.44 洞察度 2.00

修复 blog 同步 CI 的 PR token 权限问题

简单且必要的 CI 修复，对齐了仓库的已有最佳实践，值得快速合入。

ciinfrabugfix

#27193 Replace skip_attn_backend_init with a batch-carried attention plan marker (+ staleness re-plan)

原始 PR · 作者 ch-wan · 合并时间 2026-06-05 08:13

重构重要性 8.99 洞察度 7.00

用 batch 携带的 attention plan marker 替换 skip_attn_backend_init

强烈建议阅读。PR 展示了如何用 batch 携带的状态替换控制耦合，以及如何通过 opt-in 的 plan record 安全地实现 staleness re-plan，是 speculative decoding 路径中一次重要的基础设施重构。设计思路（将断言从调用链远处转移到数据本身）值得其他类似场景借鉴。

refactorspeculative-decodingattention

第 11 / 357 页 · 共 2850 条

上一页 1 … 9 10 11 12 13 … 357 下一页