支持 Gemma4 流水线并行
建议精读此 PR,特别是 pp_filter_load_weight 的设计和 forward 中 PP proxy 的处理,这是 SGLang 中标准 PP 适配模式。同时关注 PLE 兼容性讨论,体现了在边界情况下的设计权衡。对于需要部署 Gemma4 在单机多 GPU 环境的团队,应立即采用此变更。
SGLang is a high-performance serving framework for large language models and multimodal models.
支持 Gemma4 流水线并行
建议精读此 PR,特别是 pp_filter_load_weight 的设计和 forward 中 PP proxy 的处理,这是 SGLang 中标准 PP 适配模式。同时关注 PLE 兼容性讨论,体现了在边界情况下的设计权衡。对于需要部署 Gemma4 在单机多 GPU 环境的团队,应立即采用此变更。
原始 PR · 作者 Makcum888e · 合并时间 2026-05-19 22:27
支持GLM-Image多设备并行生成
值得精读。尤其关注新增的`MAIN_RANK_ONLY_AND_SEND_TO_OTHERS`并行模式设计,它解决了自回归生成阶段在多卡环境中必须保持token一致性的问题。这种“单卡执行后广播”的范式对于混合不同并行策略的流水线很有参考价值。同时,AR阶段与扩散阶段的拆分也体现了模块化思想。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-19 22:20
统一升级 transformers 到 5.8.1
建议合并此 PR,但密切关注 CI 测试结果,特别是模型加载与 tokenizer 相关测试;若出现失败,应优先排查 transformers 5.8.1 的 breaking changes。后续可考虑补充针对 transformers 版本的集成测试。
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-05-19 21:47
对齐 NPU 上 GLM-4.7 MTP 加载路径
该 PR 适合精读,特别是关注 SLANG 中 MTP 推测解码的实现细节和 NPU 平台的量化策略。其中的清理工作(移除冗余上下文管理器、简化控制流)体现了代码质量演进方向。
移除 NPU 文档中的 100ms 基准配置
此 PR 仅为文档清理,可快速合并。但建议跟进 reviewer 的意见,确保表格中的引用一致性。
CI工作流支持labeled事件重新触发
该 PR 设计完善,文档清晰,推荐 CI 管理者精读。值得关注的设计决策是通过 `labeled` 事件绕开 `run.rerun()` 不可用的问题,这是一个很好的 GitHub Actions 实践。建议后续为 handler 增加单元测试。
移除陈旧的 DeepSeek V4 JIT 内核
值得快速合并。虽然简单删除,但展示了清理无用代码的最佳实践:用 rg 验证无引用后删除,并保留 git 历史供回溯。
NPU扩散模型新增三种注意力后端
值得精读,尤其是如何在现有注意力抽象框架中新增后端,以及平台选择逻辑的 try-except 降级处理。对于 NPU 相关开发者,Rain Fusion 和 Block Sparse 的实现细节需关注 review 中的性能优化建议。
参与讨论