移除流水线并行与混合分块预填充的兼容性限制,允许两者同时启用。
该PR值得快速浏览,以了解如何通过移除过于保守的兼容性限制来解锁性能优化。关注点在于测试数据的展示方式,它提供了有力的证据支持变更。对于工程师,可以学习如何通过基准测试验证架构决策。
SGLang is a high-performance serving framework for large language models and multimodal models.
移除流水线并行与混合分块预填充的兼容性限制,允许两者同时启用。
该PR值得快速浏览,以了解如何通过移除过于保守的兼容性限制来解锁性能优化。关注点在于测试数据的展示方式,它提供了有力的证据支持变更。对于工程师,可以学习如何通过基准测试验证架构决策。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-16 11:03
升级 transformers 5.5.3 并拆分 hf_transformers_utils 为子包
值得所有 SGLang 贡献者精读,尤其是 `compat.py` 和 `tokenizer.py` 的设计模式:如何组织临时 monkey-patch 并附上游 issue 引用、如何处理 transformers v5 中 `TokenizersBackend` 的 fallback 策略。对于需要升级重大依赖的项目,这是很好的参考案例。
原始 PR · 作者 icepoint666 · 合并时间 2026-04-16 10:49
修复 HiMambaRadixCache 过期淘汰节点断言崩溃
值得快速合入, 但需要关注后续 PR #23696 的进展, 以及用户反馈的剩余问题。建议精读 `hi_mamba_radix_cache.py` 中的驱逐逻辑设计。
原始 PR · 作者 vvagaytsev · 合并时间 2026-04-16 09:40
修复 AMD ROCm Docker 镜像中 aiter 模块因导入机制变更导致的启动失败。
该 PR 值得快速浏览以理解 Docker 镜像构建中 Python 可编辑安装模式的陷阱。重点关注 `editable_mode=compat` 如何解决导入路径冲突,以及 review 中未解决的 `sh -c` 使用风险,可作为未来基础设施代码改进的参考点。
优化 Step3p5 MoE 层 all-reduce 通信,合并操作以提升性能。
该 PR 值得精读,重点关注 all-reduce 合并的设计决策和 LayerCommunicator 的配置优化,对分布式训练和推理中的通信优化有借鉴意义。
修复 spec v2 流式会话奖励槽会计问题,移除兼容性门并添加全面测试矩阵。
建议精读核心源码修改(特别是 `eagle_info_v2.py` 和 `scheduler_output_processor_mixin.py`),关注奖励槽会计的时序调整设计;同时浏览测试文件以理解覆盖范围,这对维护流式会话模块至关重要。
原始 PR · 作者 merrymercy · 合并时间 2026-04-16 07:25
更新代码拼写检查配置,将 `*.lock` 文件加入跳过列表并添加 `inout` 到忽略词表。
该 PR 变更简单直接,无需精读。对于团队来说,值得关注的是配置维护的实践:定期更新工具配置以适配项目需求。对于新贡献者,可参考此 PR 了解如何调整 codespell 设置。
原始 PR · 作者 ishandhanani · 合并时间 2026-04-16 06:57
重新启用GB200 FP8夜间基准测试配置,恢复完整测试覆盖。
该PR值得快速浏览以了解CI配置的恢复情况,重点关注FP8基准测试配置的完整性和正确性。对于负责CI维护的工程师,建议验证配置中的外部引用路径是否有效。
参与讨论