升级 cutlass-dsl 至 4.5.1 并添加 CUDA 13 额外依赖标记
该 PR 是一个常规依赖升级,架构影响极小,但关联了 B300 硬件兼容性问题。建议结合 PR #25564 和后续的 `pyproject.toml` 重构一同追踪。对于主要使用 CUDA 12 的用户,可留意后续是否引入条件化依赖机制。
SGLang is a high-performance serving framework for large language models and multimodal models.
升级 cutlass-dsl 至 4.5.1 并添加 CUDA 13 额外依赖标记
该 PR 是一个常规依赖升级,架构影响极小,但关联了 B300 硬件兼容性问题。建议结合 PR #25564 和后续的 `pyproject.toml` 重构一同追踪。对于主要使用 CUDA 12 的用户,可留意后续是否引入条件化依赖机制。
升级 triton-xpu 至 3.7.1
该 PR 是简单的依赖升级,无需精读。可关注的点:正式索引和测试索引的 URL 变化,以及版本锁定的实践,适用于其他依赖管理场景。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-21 10:28
修复 cherry-pick 工作流 git push 权限问题
PR 修复清晰且必要,建议尽快合并。同时建议仓库管理员按照 PR 描述中的指引创建 `GH_PAT_FOR_CHERRY_PICK` 密钥。
修复 rustfmt 行长度警告
可直接合并。该 PR 是纯代码风格修正,无需特别关注设计决策或深度审查。
原始 PR · 作者 silencejade · 合并时间 2026-05-21 10:02
新增 Qwen3.5-397B-A17B 在 Ascend NPU 上的最佳实践文档
阅读建议:对于在 Ascend NPU 上部署大模型的用户,可参考此文档获取已验证的配置参数;对于贡献者,应关注 review 中提出的名称一致性问题,避免类似疏忽。
原始 PR · 作者 hanming-lu · 合并时间 2026-05-21 09:49
回退 AMD EAGLE overlap CUDA event 同步
建议仔细测试 AMD 环境下 EAGLE overlap 功能的正确性和性能,确保 `wait_stream` 同步足够可靠。如果可以,考虑在文档中明确说明 `SGLANG_ENABLE_OVERLAP_PLAN_STREAM` 环境变量的作用和使用场景。
LoRA 基准测试适配器数量可配置
值得合并,作为 LoRA 路线图的基础设施改进。开发者可参考此模式将其他硬编码基准测试参数化。
原始 PR · 作者 kflansburg · 合并时间 2026-05-21 09:20
修复 HiCache 解码卸载管理器 slot 重用竞态条件
**建议合入**。这是一个关键正确性修复,解决了 `DecodeKVCacheOffloadManager` 中导致数据污染的两个竞态条件,并重新启用了被禁用的端到端测试。实现中通过 `offload_inflight` 计数器将释放时刻与异步操作完成关联,是处理带外操作序列化的良好设计模式,值得参考。
参与讨论