Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-13 17:27 同步状态：空闲下次计划：2026-06-13 18:27

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-19

#25284 Support Gemma4 Pipeline Parallelism

原始 PR · 作者 yuan-luo · 合并时间 2026-05-19 22:40

功能重要性 8.85 洞察度 7.00

支持 Gemma4 流水线并行

建议精读此 PR，特别是 pp_filter_load_weight 的设计和 forward 中 PP proxy 的处理，这是 SGLang 中标准 PP 适配模式。同时关注 PLE 兼容性讨论，体现了在边界情况下的设计权衡。对于需要部署 Gemma4 在单机多 GPU 环境的团队，应立即采用此变更。

featureschedulingperformance

#25645 [Diffusion] Support parallelism for GLM-Image

原始 PR · 作者 Makcum888e · 合并时间 2026-05-19 22:27

功能重要性 8.54 洞察度 5.00

支持GLM-Image多设备并行生成

值得精读。尤其关注新增的`MAIN_RANK_ONLY_AND_SEND_TO_OTHERS`并行模式设计，它解决了自回归生成阶段在多卡环境中必须保持token一致性的问题。这种“单卡执行后广播”的范式对于混合不同并行策略的流水线很有参考价值。同时，AR阶段与扩散阶段的拆分也体现了模块化思想。

featurediffusionnpu

#25451 Upgrade transformers to 5.8.1

原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-19 22:20

基础设施重要性 3.75 洞察度 2.00

统一升级 transformers 到 5.8.1

建议合并此 PR，但密切关注 CI 测试结果，特别是模型加载与 tokenizer 相关测试；若出现失败，应优先排查 transformers 5.8.1 的 breaking changes。后续可考虑补充针对 transformers 版本的集成测试。

dependenciesinfranpu

#25524 [Bug Fix] Align glm4_moe_nextn NPU MTP loading with qwen3 MTP

原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-05-19 21:47

缺陷修复重要性 6.79 洞察度 5.00

对齐 NPU 上 GLM-4.7 MTP 加载路径

该 PR 适合精读，特别是关注 SLANG 中 MTP 推测解码的实现细节和 NPU 平台的量化策略。其中的清理工作（移除冗余上下文管理器、简化控制流）体现了代码质量演进方向。

bugfixnpudeepseek

#25778 [NPU] [DOC] remove Qwen3-235B-A22B 2K+2K 100ms mixed mode benchmark

原始 PR · 作者 amote-i · 合并时间 2026-05-19 20:48

文档重要性 3.58 洞察度 1.00

移除 NPU 文档中的 100ms 基准配置

此 PR 仅为文档清理，可快速合并。但建议跟进 reviewer 的意见，确保表格中的引用一致性。

documentationnpu

#25732 pr-test-extra: re-trigger on labeled event

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-19 20:15

功能重要性 5.40 洞察度 5.00

CI工作流支持labeled事件重新触发

该 PR 设计完善，文档清晰，推荐 CI 管理者精读。值得关注的设计决策是通过 `labeled` 事件绕开 `run.rerun()` 不可用的问题，这是一个很好的 GitHub Actions 实践。建议后续为 handler 增加单元测试。

ciinfradocumentation

#25764 [Codex] Remove stale DeepSeek V4 JIT kernels

原始 PR · 作者 BBuf · 合并时间 2026-05-19 20:04

重构重要性 5.91 洞察度 2.00

移除陈旧的 DeepSeek V4 JIT 内核

值得快速合并。虽然简单删除，但展示了清理无用代码的最佳实践：用 rg 验证无引用后删除，并保留 git 历史供回溯。

deepseekjit-kernelquant

#23482 [Diffusion][NPU]Add attention backends for diffusion models for Ascend NPU

原始 PR · 作者 Napkin-AI · 合并时间 2026-05-19 17:46

功能重要性 9.00 洞察度 6.00

NPU扩散模型新增三种注意力后端

值得精读，尤其是如何在现有注意力抽象框架中新增后端，以及平台选择逻辑的 try-except 降级处理。对于 NPU 相关开发者，Rain Fusion 和 Block Sparse 的实现细节需关注 review 中的性能优化建议。

diffusionnpufeature

第 138 / 396 页 · 共 3165 条

上一页 1 … 136 137 138 139 140 … 396 下一页