Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-04

#26914 [AMD] Remove BF16-to-FP32 elementwise cast from compressor GEMM on HIP

原始 PR · 作者 yichiche · 合并时间 2026-06-04 15:58

性能优化重要性 6.68 洞察度 7.00

移除 AMD 上 compressor GEMM 的 BF16→FP32 类型转换

该 PR 值得精读，特别是对于在 AMD 平台上部署 DeepSeek-V4 模型的团队。核心设计决策（在 HIP 路径绕过昂贵的类型转换，同时在 Triton kernel 中添加显式类型处理）展示了平台特定优化的典型方法。性能数据详实，aiter 库的使用也值得关注。

amdperformancedeepseek

#27035 docs: add DeepSeek V4 FP4 indexer usage

原始 PR · 作者 liz-badada · 合并时间 2026-06-04 15:44

文档重要性 2.64 洞察度 2.00

新增 DeepSeek V4 FP4 Indexer 文档

文档清晰简洁，可以直接合并。无需精读。

documentationdeepseekfp8

#27111 [AMD] Minimax M25 : FP8 block-scale GEMM dispatch for ROCm 7.0 on gfx950

原始 PR · 作者 yctseng0211 · 合并时间 2026-06-04 15:41

性能优化重要性 6.15 洞察度 4.00

为 ROCm 7.0/gfx950 新增 CK fp8 块量化 GEMM 回退

值得合入。变更精炼、风险低，性能收益明确。关注后续 ROCm 7.2+ 上 bpreshuffle 路径与 CK 路径的调度优先级可再评估。

amdperformancedeepseek

#27240 [Docs] re-organize nemotron cookbook

原始 PR · 作者 zijiexia · 合并时间 2026-06-04 15:40

文档重要性 2.56 洞察度 0.00

重新组织 Nemotron 文档侧边栏顺序

此 PR 为纯粹的文档调整，无需深入阅读源码，可以快速合并。

documentation

#26969 docs: add Nemotron 3 Ultra cookbook entry

原始 PR · 作者 zhenghax · 合并时间 2026-06-04 15:14

文档重要性 7.55 洞察度 5.00

新增 Nemotron 3 Ultra cookbook 文档和交互式部署生成器

值得精读的文档 PR，特别是交互式生成器的验证矩阵设计模式，可用于其他模型的 cookbook 开发。关注其验证逻辑与文档同步机制，对后续文档自动化有参考价值。

documentationcookbookdeployment

#26676 [mem_cache][2/N] refactor: move SWATokenToKVPoolAllocator to allocator/swa.py

原始 PR · 作者 alphabetc1 · 合并时间 2026-06-04 15:10

重构重要性 9.15 洞察度 5.00

移动 SWATokenToKVPoolAllocator 至 allocator/swa.py

该 PR 适合所有 mem_cache 模块的开发者精读。值得关注的设计决策包括：1) 通过 `git blame -C` 保留历史的方法；2) 不在 `__init__.py` 中重新导出的原因（避免循环导入）；3) 机械重构时的零风险迁移实践。对于普通使用者，只需知道这是纯重构即可。

refactorkv-cacheinfra

#25000 Reduce mamba prefill allocation overhead

原始 PR · 作者 YazhiGao · 合并时间 2026-06-04 15:10

性能优化重要性 6.99 洞察度 6.00

降低 Mamba 预填充内存分配开销

该 PR 值得精读，尤其是 MambaPool 分组分配的设计模式，可以推广到其他类似的热点分配路径。关注 `alloc_group_end` 的提前释放逻辑和与现有 `free` 调用的交互。建议添加单元测试覆盖分组分配的正确性（例如分配后释放、迭代器耗尽回退等场景）。

performanceschedulingmamba

#27232 [AMD][CI] Remove transformers pin from GLM-5.x nightly jobs

原始 PR · 作者 yctseng0211 · 合并时间 2026-06-04 14:34

基础设施重要性 2.95 洞察度 2.00

移除 GLM-5.x 夜间 CI 的 transformers 版本锁定

该 PR 值得合入，因为它解决了因依赖版本不一致导致 CI 故障的问题。建议合入后观察一轮夜间 CI 结果，确保 GLM-5.x 测试通过。

amdciinfra

第 15 / 357 页 · 共 2850 条

上一页 1 … 13 14 15 16 17 … 357 下一页