Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-07

#24268 [Kernel] Deprecate DeepGemm in sgl kernel and apply custom wheel sgl-deep-gemm

原始 PR · 作者 Fridge003 · 合并时间 2026-05-07 09:59

重构重要性 7.42 洞察度 6.00

将 DeepGemm 从 sglang-kernel 剥离为独立 wheel

核心架构调整，值得仔细审查。重点关注 `nsa_backend.py` 中的 `_to_2d_context_lens` 适配逻辑和 `fp8_utils.py` 中的 stride 修复，它们直接关系到 DeepSeek 等模型在 FP8 下的正确性。建议在合并后运行完整的 DeepSeek 集成测试以验证无精度退化。

sgl-kerneldeepseekrefactor

#24487 propagate pytest exit code from test main entries

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-07 09:46

缺陷修复重要性 8.22 洞察度 6.00

修复CI中bare pytest.main导致失败被吞没

该PR是典型的CI可靠性修复，设计思路清晰（AST扫描而非侵入式修改运行器）。建议阅读`test_no_bare_pytest_main.py`的实现，了解如何用AST做仓库级别的规则检查。对于贡献者，在提交包含`pytest.main`的测试文件时，务必使用`sys.exit(pytest.main(...))`。

bugfixtestci

#24550 [R3] Avoid implicit CUDA sync in routed experts DP slicing

原始 PR · 作者 zyzshishui · 合并时间 2026-05-07 09:37

缺陷修复重要性 6.62 洞察度 6.00

避免 routed experts DP 切片中隐式 CUDA 同步

推荐精读。该 PR 是高性能推理中消除隐式同步的典型案例，展示了如何通过 CPU 侧整数计算避免 GPU 同步。同时 review 中关于数据可用性的讨论值得关注，未来可能的改进方向可以增加防御性检查。

bugfixperformancescheduling

#23981 Add ChatCompletionRequest-style support to /v1/tokenize

原始 PR · 作者 huangtingwei9988 · 合并时间 2026-05-07 09:35

功能重要性 7.62 洞察度 6.00

支持 ChatCompletion 风格的 /v1/tokenize

值得精读，尤其是 `_tokenize_chat_request` 的复用模式和 `TokenizeRequest` 的模型设计。展示了如何通过组合已有的 chat serving 能力来扩展简单端点，是 API 演进的良好范例。

featureschedulingkv-cache

#20479 Support Triton MLA FP8 KV cache

原始 PR · 作者 b8zhong · 合并时间 2026-05-07 09:32

性能优化重要性 6.54 洞察度 6.00

支持 Triton MLA FP8 KV 缓存，长序列性能提升 91%

值得所有关注 MLA 和 Triton 内核优化的工程师精读。特别是 `v = tl.trans(k)` 技巧、KV Splits 的动态计算、以及 PDL 的使用都是可以直接复用到其他模型的优化模式。建议在后续 PR 中补充单元测试和 `k_scale==v_scale` 的检查。

mlaattentionperformance

#24313 [diffusion] chore: align LTX-2 with official

原始 PR · 作者 mickqian · 合并时间 2026-05-07 08:46

功能重要性 9.18 洞察度 6.00

对齐 LTX-2 与官方实现的注意力语义和数值精度

建议精读以下部分： - Gemma3 注意力掩码和 GQA 处理方式的变更（`gemma_3.py`） - NumPy 双精度 RoPE 频率计算的实现（`ltx_2.py` / `ltx_2_connector.py`） - res2s 标量精度对齐策略（`ltx_2_denoising.py`） - 组件级注意力后端自动配置（`server_args.py`）这些变更体现了将非标准注意力路径与官方逐位对齐的典型方法，值得扩散模型开发者参考。

diffusionfeaturelora

#24565 Expand support matrix for pypi wheel release

原始 PR · 作者 Fridge003 · 合并时间 2026-05-07 08:39

基础设施重要性 5.66 洞察度 6.00

扩展 PyPI 发布矩阵至多 Python 版本和双架构

该 PR 是基础设施改进，值得运维和 CI 团队关注。矩阵构建和并行发布的设计模式可复用至其他 Python 包发布流程。

cifeature

#24117 [codex] Optimize Z-Image packed QKV

原始 PR · 作者 BBuf · 合并时间 2026-05-07 07:51

性能优化重要性 7.01 洞察度 5.00

Z-Image 打包 QKV 投影优化，去噪延迟降低 35%

建议技术负责人和扩散模型开发者精读此 PR，特别是 `linear.py` 中 `_weight_loader_v2_block_quant_scale` 的实现，这是一个为融合线性层处理块量化权重的良好模式。未来类似模型（如 Flux/MMDiT）可借鉴此方案。

performancediffusionfeature

第 165 / 357 页 · 共 2850 条

上一页 1 … 163 164 165 166 167 … 357 下一页