Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-04-03
基础设施 重要性 3.00 洞察度 2.00

移除内核版本更新工作流中的夜间测试触发,简化CI流程。

该PR变更简单直接,适合基础设施维护人员快速了解。值得关注的设计决策是:将内核版本同步与夜间测试解耦,这可能反映团队在优化CI流水线,区分不同职责的工作流。建议结合团队CI策略评估此变更的合理性。

#21447 chore: bump sgl-kernel version to 0.4.1

原始 PR · 作者 sglang-bot · 合并时间 2026-04-03 13:31

基础设施 重要性 2.00 洞察度 1.00

更新 sgl-kernel 依赖版本至 0.4.1,同步所有配置和版本文件。

此 PR 变更简单,无需深入代码审查。建议团队关注后续 CI 测试结果,并查看 sgl-kernel 0.4.1 的变更日志以了解具体更新内容。对于工程师,可以略读文件变更以确认版本号统一更新。

性能优化 重要性 5.00 洞察度 4.00

为AMD硬件添加2880隐藏维度到融合allreduce-RMSNorm启发式,修复GPT-OSS模型性能回归。

该PR值得快速浏览,以了解AMD硬件下融合allreduce的性能调优细节。关注点:1. fused_allreduce_rmsnorm函数中的启发式逻辑(隐藏维度集合和payload检查)。2. 性能测试结果展示了实际收益。3. review中关于未来重构的简短讨论,提示当前方法可能需改进。

重构 重要性 5.00 洞察度 5.00

统一 AMD 确定性 all reduce 代码路径,简化并行状态管理。

建议涉及分布式通信或 AMD 硬件支持的工程师精读此 PR,重点关注 _all_reduce_impl 方法的设计决策和统一路径的逻辑;对于其他开发者,了解变更概要即可,以跟踪代码演进。

#21998 [NPU] Optimized the wording in the npu docs

原始 PR · 作者 amote-i · 合并时间 2026-04-03 11:51

文档 重要性 2.00 洞察度 1.00

优化NPU文档术语,将separation统一为disaggregation并移除不支持参数描述。

对于一般开发者,无需精读此PR,除非关注NPU文档细节或术语一致性。变更简单直接,主要价值在于维护文档质量。

基础设施 重要性 6.00 洞察度 3.00

回滚 MUSA 硬件的 FA3 注意力后端支持,移除相关依赖和代码。

建议工程师查看回滚是否彻底移除所有 MUSA 相关代码,并关注后续是否重新引入 MUSA 支持或替代方案。对于涉及硬件后端的开发,值得关注此 PR 以理解依赖管理风险。

缺陷修复 重要性 5.00 洞察度 4.00

修复bench_one_batch中DP-Attention并行元数据错误,确保性能分析准确性。

该PR值得快速浏览,特别是对于涉及性能分析、DP-Attention配置或调度器开发的工程师。关注从硬编码到使用现有函数的简化设计决策,这体现了代码复用和一致性的最佳实践。

功能 重要性 6.00 洞察度 6.00

默认启用多模态图像分裂,移除MULTI_IMAGES模态,提升缓存命中率。

建议技术管理者和工程师精读此PR,重点关注_try_simple_split函数的实现和处理器层的变更,以理解多模态缓存优化设计;同时注意向后兼容性风险和后续ViT优化方向,可作为多模态性能调优的参考案例。

参与讨论