Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-06-04
性能优化 重要性 6.68 洞察度 7.00

移除 AMD 上 compressor GEMM 的 BF16→FP32 类型转换

该 PR 值得精读,特别是对于在 AMD 平台上部署 DeepSeek-V4 模型的团队。核心设计决策(在 HIP 路径绕过昂贵的类型转换,同时在 Triton kernel 中添加显式类型处理)展示了平台特定优化的典型方法。性能数据详实,aiter 库的使用也值得关注。

#27240 [Docs] re-organize nemotron cookbook

原始 PR · 作者 zijiexia · 合并时间 2026-06-04 15:40

文档 重要性 2.56 洞察度 0.00

重新组织 Nemotron 文档侧边栏顺序

此 PR 为纯粹的文档调整,无需深入阅读源码,可以快速合并。

#26969 docs: add Nemotron 3 Ultra cookbook entry

原始 PR · 作者 zhenghax · 合并时间 2026-06-04 15:14

文档 重要性 7.55 洞察度 5.00

新增 Nemotron 3 Ultra cookbook 文档和交互式部署生成器

值得精读的文档 PR,特别是交互式生成器的验证矩阵设计模式,可用于其他模型的 cookbook 开发。关注其验证逻辑与文档同步机制,对后续文档自动化有参考价值。

重构 重要性 9.15 洞察度 5.00

移动 SWATokenToKVPoolAllocator 至 allocator/swa.py

该 PR 适合所有 mem_cache 模块的开发者精读。值得关注的设计决策包括:1) 通过 `git blame -C` 保留历史的方法;2) 不在 `__init__.py` 中重新导出的原因(避免循环导入);3) 机械重构时的零风险迁移实践。对于普通使用者,只需知道这是纯重构即可。

#25000 Reduce mamba prefill allocation overhead

原始 PR · 作者 YazhiGao · 合并时间 2026-06-04 15:10

性能优化 重要性 6.99 洞察度 6.00

降低 Mamba 预填充内存分配开销

该 PR 值得精读,尤其是 MambaPool 分组分配的设计模式,可以推广到其他类似的热点分配路径。关注 `alloc_group_end` 的提前释放逻辑和与现有 `free` 调用的交互。建议添加单元测试覆盖分组分配的正确性(例如分配后释放、迭代器耗尽回退等场景)。

基础设施 重要性 2.95 洞察度 2.00

移除 GLM-5.x 夜间 CI 的 transformers 版本锁定

该 PR 值得合入,因为它解决了因依赖版本不一致导致 CI 故障的问题。建议合入后观察一轮夜间 CI 结果,确保 GLM-5.x 测试通过。

参与讨论