更新GitHub Actions工作流权限并删除过时的版本升级脚本。
对于负责CI/CD的工程师,可以快速浏览以了解权限更新;对于其他开发者,无需深入关注。
SGLang is a high-performance serving framework for large language models and multimodal models.
更新GitHub Actions工作流权限并删除过时的版本升级脚本。
对于负责CI/CD的工程师,可以快速浏览以了解权限更新;对于其他开发者,无需深入关注。
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-03-24 04:19
修复 GLM-V 和 GLM-OCR 模型中的配置检测错误和 MTP 接受率问题,提升与 transformers 5.x 的兼容性。
建议工程师精读此 PR,特别是 `weight_utils.py` 中的配置检测逻辑和 `glm_ocr.py` 的设计修正,以了解模型兼容性处理的最佳实践。关注 MTP 相关权重的加载顺序调整,这对于 speculative decoding 性能优化有参考价值。
原始 PR · 作者 merrymercy · 合并时间 2026-03-24 04:17
将 CI 测试工作流拆分为多个文件,提升维护性。
建议工程团队,特别是负责 CI 的开发者,精读此 PR 以了解 GitHub Actions 可重用工作流的设计模式,重点关注环境变量继承机制和变化检测更新。对于技术管理者,可关注其作为基础设施重构的最佳实践案例。
修复 DeepSeek V3.2 上下文并行中 in-seq-split 方法的计算错误并标准化测试。
建议工程师精读 server_args.py 的修改,了解上下文并行计算逻辑;测试重构部分可作为测试迁移的参考。
原始 PR · 作者 merrymercy · 合并时间 2026-03-24 01:48
改进 CI 和测试文档,提供清晰指导并修复相关测试文件。
该 PR 值得快速浏览,特别是 test/README.md 的更新,对于理解项目 CI 结构和测试指南有直接帮助。代码变更部分如 sys.exit 修复和路径调整值得关注,可检查类似问题在其他地方是否已解决。对于技术管理者,可参考文档改进作为最佳实践。
为AMD平台添加GemmaRMSNorm的fused HIP前向方法,提升Qwen3.5模型性能。
建议精读此PR以学习AMD平台上的性能优化策略,关注forward_hip方法中的kernel路由设计、回退机制和Gemma特定偏移处理,这些是设计决策的核心。对于从事硬件后端优化的工程师,此PR提供了融合kernel集成的实际案例。
原始 PR · 作者 vaibhawvipul · 合并时间 2026-03-24 00:33
为srt/constrained模块添加单元测试,提升测试覆盖率至54%。
建议工程师精读test_grammar_manager.py中的并发测试部分,学习如何模拟Future和状态隔离;关注design决策如缓存机制和错误处理,这些在测试中得到充分验证。
新增srt/observability模块单元测试,覆盖所有子模块,提升代码质量。
对于技术管理者和工程师,建议关注测试中使用的stub模式和mock策略,这些是处理复杂依赖的实用技术。PR值得精读以学习如何为observability模块编写高效单元测试,并了解stub drift风险的管理方法。
参与讨论