Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-13 17:27 同步状态:空闲 下次计划:2026-06-13 18:27

PR 列表

更多筛选
2026-05-19

#25284 Support Gemma4 Pipeline Parallelism

原始 PR · 作者 yuan-luo · 合并时间 2026-05-19 22:40

功能 重要性 8.85 洞察度 7.00

支持 Gemma4 流水线并行

建议精读此 PR,特别是 pp_filter_load_weight 的设计和 forward 中 PP proxy 的处理,这是 SGLang 中标准 PP 适配模式。同时关注 PLE 兼容性讨论,体现了在边界情况下的设计权衡。对于需要部署 Gemma4 在单机多 GPU 环境的团队,应立即采用此变更。

功能 重要性 8.54 洞察度 5.00

支持GLM-Image多设备并行生成

值得精读。尤其关注新增的`MAIN_RANK_ONLY_AND_SEND_TO_OTHERS`并行模式设计,它解决了自回归生成阶段在多卡环境中必须保持token一致性的问题。这种“单卡执行后广播”的范式对于混合不同并行策略的流水线很有参考价值。同时,AR阶段与扩散阶段的拆分也体现了模块化思想。

#25451 Upgrade transformers to 5.8.1

原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-19 22:20

基础设施 重要性 3.75 洞察度 2.00

统一升级 transformers 到 5.8.1

建议合并此 PR,但密切关注 CI 测试结果,特别是模型加载与 tokenizer 相关测试;若出现失败,应优先排查 transformers 5.8.1 的 breaking changes。后续可考虑补充针对 transformers 版本的集成测试。

缺陷修复 重要性 6.79 洞察度 5.00

对齐 NPU 上 GLM-4.7 MTP 加载路径

该 PR 适合精读,特别是关注 SLANG 中 MTP 推测解码的实现细节和 NPU 平台的量化策略。其中的清理工作(移除冗余上下文管理器、简化控制流)体现了代码质量演进方向。

#25732 pr-test-extra: re-trigger on labeled event

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-19 20:15

功能 重要性 5.40 洞察度 5.00

CI工作流支持labeled事件重新触发

该 PR 设计完善,文档清晰,推荐 CI 管理者精读。值得关注的设计决策是通过 `labeled` 事件绕开 `run.rerun()` 不可用的问题,这是一个很好的 GitHub Actions 实践。建议后续为 handler 增加单元测试。

#25764 [Codex] Remove stale DeepSeek V4 JIT kernels

原始 PR · 作者 BBuf · 合并时间 2026-05-19 20:04

重构 重要性 5.91 洞察度 2.00

移除陈旧的 DeepSeek V4 JIT 内核

值得快速合并。虽然简单删除,但展示了清理无用代码的最佳实践:用 rg 验证无引用后删除,并保留 git 历史供回溯。

功能 重要性 9.00 洞察度 6.00

NPU扩散模型新增三种注意力后端

值得精读,尤其是如何在现有注意力抽象框架中新增后端,以及平台选择逻辑的 try-except 降级处理。对于 NPU 相关开发者,Rain Fusion 和 Block Sparse 的实现细节需关注 review 中的性能优化建议。

参与讨论