移除内核版本更新工作流中的夜间测试触发,简化CI流程。
该PR变更简单直接,适合基础设施维护人员快速了解。值得关注的设计决策是:将内核版本同步与夜间测试解耦,这可能反映团队在优化CI流水线,区分不同职责的工作流。建议结合团队CI策略评估此变更的合理性。
SGLang is a high-performance serving framework for large language models and multimodal models.
移除内核版本更新工作流中的夜间测试触发,简化CI流程。
该PR变更简单直接,适合基础设施维护人员快速了解。值得关注的设计决策是:将内核版本同步与夜间测试解耦,这可能反映团队在优化CI流水线,区分不同职责的工作流。建议结合团队CI策略评估此变更的合理性。
原始 PR · 作者 sglang-bot · 合并时间 2026-04-03 13:31
更新 sgl-kernel 依赖版本至 0.4.1,同步所有配置和版本文件。
此 PR 变更简单,无需深入代码审查。建议团队关注后续 CI 测试结果,并查看 sgl-kernel 0.4.1 的变更日志以了解具体更新内容。对于工程师,可以略读文件变更以确认版本号统一更新。
原始 PR · 作者 kkHuang-amd · 合并时间 2026-04-03 13:10
为AMD硬件添加2880隐藏维度到融合allreduce-RMSNorm启发式,修复GPT-OSS模型性能回归。
该PR值得快速浏览,以了解AMD硬件下融合allreduce的性能调优细节。关注点:1. fused_allreduce_rmsnorm函数中的启发式逻辑(隐藏维度集合和payload检查)。2. 性能测试结果展示了实际收益。3. review中关于未来重构的简短讨论,提示当前方法可能需改进。
原始 PR · 作者 DarkSharpness · 合并时间 2026-04-03 12:33
统一 AMD 确定性 all reduce 代码路径,简化并行状态管理。
建议涉及分布式通信或 AMD 硬件支持的工程师精读此 PR,重点关注 _all_reduce_impl 方法的设计决策和统一路径的逻辑;对于其他开发者,了解变更概要即可,以跟踪代码演进。
优化NPU文档术语,将separation统一为disaggregation并移除不支持参数描述。
对于一般开发者,无需精读此PR,除非关注NPU文档细节或术语一致性。变更简单直接,主要价值在于维护文档质量。
回滚 MUSA 硬件的 FA3 注意力后端支持,移除相关依赖和代码。
建议工程师查看回滚是否彻底移除所有 MUSA 相关代码,并关注后续是否重新引入 MUSA 支持或替代方案。对于涉及硬件后端的开发,值得关注此 PR 以理解依赖管理风险。
修复bench_one_batch中DP-Attention并行元数据错误,确保性能分析准确性。
该PR值得快速浏览,特别是对于涉及性能分析、DP-Attention配置或调度器开发的工程师。关注从硬编码到使用现有函数的简化设计决策,这体现了代码复用和一致性的最佳实践。
默认启用多模态图像分裂,移除MULTI_IMAGES模态,提升缓存命中率。
建议技术管理者和工程师精读此PR,重点关注_try_simple_split函数的实现和处理器层的变更,以理解多模态缓存优化设计;同时注意向后兼容性风险和后续ViT优化方向,可作为多模态性能调优的参考案例。
参与讨论