移除 AMD 上 compressor GEMM 的 BF16→FP32 类型转换
该 PR 值得精读,特别是对于在 AMD 平台上部署 DeepSeek-V4 模型的团队。核心设计决策(在 HIP 路径绕过昂贵的类型转换,同时在 Triton kernel 中添加显式类型处理)展示了平台特定优化的典型方法。性能数据详实,aiter 库的使用也值得关注。
SGLang is a high-performance serving framework for large language models and multimodal models.
移除 AMD 上 compressor GEMM 的 BF16→FP32 类型转换
该 PR 值得精读,特别是对于在 AMD 平台上部署 DeepSeek-V4 模型的团队。核心设计决策(在 HIP 路径绕过昂贵的类型转换,同时在 Triton kernel 中添加显式类型处理)展示了平台特定优化的典型方法。性能数据详实,aiter 库的使用也值得关注。
原始 PR · 作者 liz-badada · 合并时间 2026-06-04 15:44
新增 DeepSeek V4 FP4 Indexer 文档
文档清晰简洁,可以直接合并。无需精读。
原始 PR · 作者 yctseng0211 · 合并时间 2026-06-04 15:41
为 ROCm 7.0/gfx950 新增 CK fp8 块量化 GEMM 回退
值得合入。变更精炼、风险低,性能收益明确。关注后续 ROCm 7.2+ 上 bpreshuffle 路径与 CK 路径的调度优先级可再评估。
重新组织 Nemotron 文档侧边栏顺序
此 PR 为纯粹的文档调整,无需深入阅读源码,可以快速合并。
新增 Nemotron 3 Ultra cookbook 文档和交互式部署生成器
值得精读的文档 PR,特别是交互式生成器的验证矩阵设计模式,可用于其他模型的 cookbook 开发。关注其验证逻辑与文档同步机制,对后续文档自动化有参考价值。
原始 PR · 作者 alphabetc1 · 合并时间 2026-06-04 15:10
移动 SWATokenToKVPoolAllocator 至 allocator/swa.py
该 PR 适合所有 mem_cache 模块的开发者精读。值得关注的设计决策包括:1) 通过 `git blame -C` 保留历史的方法;2) 不在 `__init__.py` 中重新导出的原因(避免循环导入);3) 机械重构时的零风险迁移实践。对于普通使用者,只需知道这是纯重构即可。
降低 Mamba 预填充内存分配开销
该 PR 值得精读,尤其是 MambaPool 分组分配的设计模式,可以推广到其他类似的热点分配路径。关注 `alloc_group_end` 的提前释放逻辑和与现有 `free` 调用的交互。建议添加单元测试覆盖分组分配的正确性(例如分配后释放、迭代器耗尽回退等场景)。
原始 PR · 作者 yctseng0211 · 合并时间 2026-06-04 14:34
移除 GLM-5.x 夜间 CI 的 transformers 版本锁定
该 PR 值得合入,因为它解决了因依赖版本不一致导致 CI 故障的问题。建议合入后观察一轮夜间 CI 结果,确保 GLM-5.x 测试通过。
参与讨论