Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-05-21

#25576 [Deps] Use cu13 extra for nvidia cutlass dsl

原始 PR · 作者 mmangkad · 合并时间 2026-05-21 10:31

基础设施 重要性 3.25 洞察度 3.00

升级 cutlass-dsl 至 4.5.1 并添加 CUDA 13 额外依赖标记

该 PR 是一个常规依赖升级,架构影响极小,但关联了 B300 硬件兼容性问题。建议结合 PR #25564 和后续的 `pyproject.toml` 重构一同追踪。对于主要使用 CUDA 12 的用户,可留意后续是否引入条件化依赖机制。

#25730 [XPU] upgrade triton-xpu version to 3.7.1

原始 PR · 作者 jiayisunx · 合并时间 2026-05-21 10:29

基础设施 重要性 3.11 洞察度 3.00

升级 triton-xpu 至 3.7.1

该 PR 是简单的依赖升级,无需精读。可关注的点:正式索引和测试索引的 URL 变化,以及版本锁定的实践,适用于其他依赖管理场景。

文档 重要性 4.19 洞察度 2.00

新增 Qwen3.5-397B-A17B 在 Ascend NPU 上的最佳实践文档

阅读建议:对于在 Ascend NPU 上部署大模型的用户,可参考此文档获取已验证的配置参数;对于贡献者,应关注 review 中提出的名称一致性问题,避免类似疏忽。

其他 重要性 5.62 洞察度 3.00

回退 AMD EAGLE overlap CUDA event 同步

建议仔细测试 AMD 环境下 EAGLE overlap 功能的正确性和性能,确保 `wait_stream` 同步足够可靠。如果可以,考虑在文档中明确说明 `SGLANG_ENABLE_OVERLAP_PLAN_STREAM` 环境变量的作用和使用场景。

缺陷修复 重要性 7.66 洞察度 6.00

修复 HiCache 解码卸载管理器 slot 重用竞态条件

**建议合入**。这是一个关键正确性修复,解决了 `DecodeKVCacheOffloadManager` 中导致数据污染的两个竞态条件,并重新启用了被禁用的端到端测试。实现中通过 `offload_inflight` 计数器将释放时刻与异步操作完成关联,是处理带外操作序列化的良好设计模式,值得参考。

参与讨论