扩展 `/rerun-test` 命令支持 CPU-only 测试并优化批处理逻辑。
建议 CI 维护者和开发者关注此 PR,特别是批处理逻辑和错误处理的设计。代码变更集中在两个文件,便于 review,值得精读以理解 CI 工具的演进和改进方向。
SGLang is a high-performance serving framework for large language models and multimodal models.
扩展 `/rerun-test` 命令支持 CPU-only 测试并优化批处理逻辑。
建议 CI 维护者和开发者关注此 PR,特别是批处理逻辑和错误处理的设计。代码变更集中在两个文件,便于 review,值得精读以理解 CI 工具的演进和改进方向。
原始 PR · 作者 sundar24295s · 合并时间 2026-04-04 06:17
提取 Scoring API 至专用 Mixin 文件,重构 TokenizerManager 并添加代码所有权。
建议关注 EngineScoreMixin 的设计,它展示了如何将自包含功能提取为 Mixin 以提高模块化。对于参与评分功能开发的工程师,值得精读以理解新的代码组织。
回滚 JIT 激活功能,恢复 AOT 内核以解决 CI 测试失败。
建议技术管理者关注此回滚决策,评估 CI 失败的根本原因,以决定是否未来重新引入 JIT 激活。工程师可精读修改的文件(如 `python/sglang/srt/layers/activation.py` 和 MoE 相关文件),了解回滚对性能敏感路径的影响,并监控后续性能测试结果。
临时跳过SM103 GPU上的TRTLLM attention以避免高并发挂起,改用FA4后端。
该PR值得精读,特别是关注硬件特定问题的处理方式,以及attention后端选择逻辑的设计权衡,如精确检测与范围检测的对比。
修复XGrammar后端reset方法未调用父类缓存清理的问题。
该PR变更简单直接,值得快速浏览以理解语法缓存清理的继承关系。关注点:XGrammarGrammarBackend如何集成到语法后端体系,以及reset方法在缓存管理中的作用。
原始 PR · 作者 sglang-bot · 合并时间 2026-04-04 04:58
将sglang-kernel依赖版本从0.4.0升级至0.4.1,确保版本一致性。
此PR变更简单直接,无需深入精读。建议关注点: 1. 了解sglang-kernel 0.4.1的具体变更内容(可能在其他PR或changelog中)。 2. 确认CI测试通过,验证新版本内核的兼容性。 3. 作为依赖管理模式的参考,展示了如何通过多文件同步保持版本一致性。
原始 PR · 作者 merrymercy · 合并时间 2026-04-04 04:49
懒加载FlashAttention内核导入,避免FA4依赖未安装时的导入错误。
对于关注内核优化、依赖管理或代码设计的工程师,值得精读。设计决策体现了懒加载模式的应用,展示了如何优化模块导入策略以提升兼容性。
回滚NVFP4 Marlin降级支持,仅限Blackwell GPU使用FP4量化。
建议技术管理者关注此变更对硬件支持策略的影响,工程师可精读Marlin内核模板修改以理解FP4量化实现细节,但回滚本身设计决策较少,重点在于风险缓解。
参与讨论