回滚CUDA 13.0升级,恢复CI默认CUDA版本为12.9以解决内核测试问题。
该PR值得基础设施团队精读,关注CI环境配置的复杂性和CUDA升级的障碍。建议未来在升级前加强测试覆盖和环境验证。
SGLang is a high-performance serving framework for large language models and multimodal models.
回滚CUDA 13.0升级,恢复CI默认CUDA版本为12.9以解决内核测试问题。
该PR值得基础设施团队精读,关注CI环境配置的复杂性和CUDA升级的障碍。建议未来在升级前加强测试覆盖和环境验证。
原始 PR · 作者 merrymercy · 合并时间 2026-04-14 05:29
将TRT-LLM注意力后端中的contiguous().view()替换为reshape(),避免不必要的内存复制。
该PR变更简单直接,值得快速浏览以了解reshape替换的优化思路。但更值得关注的是review中提出的FP8转换逻辑不一致问题,建议后续跟进修复。对于学习PyTorch张量操作优化的工程师,这是一个很好的小案例。
为LoRA+MoE引入虚拟专家计算,通过扁平化适配器-专家组合提升多LoRA适配器推理性能。
建议技术管理者和工程师精读 `virtual_experts.py` 内核实现和 `fused_moe_triton_kernels.py` 的修改,关注虚拟专家映射算法、split-K支持以及掩码加法设计,这些是性能优化的关键决策点。
原始 PR · 作者 ishandhanani · 合并时间 2026-04-14 04:10
修复GLM4.7 Flash模型因_gfx95_quant_format属性缺失导致的加载失败问题。
该PR值得快速浏览,以了解GLM模型初始化中的常见陷阱。关注点:1. _gfx95_quant_format属性的作用及其在量化格式检测中的角色。2. 模型层间属性初始化的最佳实践,避免类似缺失问题。
原始 PR · 作者 yeahdongcn · 合并时间 2026-04-14 03:41
为MLX和MUSA硬件后端目录添加CODEOWNERS配置。
这是一个简单的配置更新,无需深入阅读。对于技术管理者,可以关注MLX和MUSA后端的所有权已明确;对于工程师,除非参与这些后端开发,否则无需特别关注。
移除Dockerfile中已失效的flashinfer缓存复制指令,修复CI构建失败。
此PR变更简单,无需精读。对于关注CI/Docker基础设施的工程师,可快速浏览以了解flashinfer缓存清理的后续动作。建议结合#22491理解完整上下文。
原始 PR · 作者 officialasishkumar · 合并时间 2026-04-14 00:45
修复SGLang版本检测问题,使用describe模式确保正确显示当前checkout版本。
该PR值得精读,特别是对于关注包管理和版本检测机制的开发者。值得关注的设计决策包括:优先使用确切标签而非最新标签的版本检测策略,以及通过fallback_version处理无Git元数据环境的健壮性设计,这些决策体现了对用户体验和跨平台一致性的重视。
更新 NPU 上 GLM5 的运行指南
该 PR 为简单的文档更新,无需深入审查。值得关注的是使用固定版本而非 main 分支的做法,可提升环境可复现性。
参与讨论