Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-07
重构 重要性 7.42 洞察度 6.00

将 DeepGemm 从 sglang-kernel 剥离为独立 wheel

核心架构调整,值得仔细审查。重点关注 `nsa_backend.py` 中的 `_to_2d_context_lens` 适配逻辑和 `fp8_utils.py` 中的 stride 修复,它们直接关系到 DeepSeek 等模型在 FP8 下的正确性。建议在合并后运行完整的 DeepSeek 集成测试以验证无精度退化。

缺陷修复 重要性 8.22 洞察度 6.00

修复CI中bare pytest.main导致失败被吞没

该PR是典型的CI可靠性修复,设计思路清晰(AST扫描而非侵入式修改运行器)。建议阅读`test_no_bare_pytest_main.py`的实现,了解如何用AST做仓库级别的规则检查。对于贡献者,在提交包含`pytest.main`的测试文件时,务必使用`sys.exit(pytest.main(...))`。

缺陷修复 重要性 6.62 洞察度 6.00

避免 routed experts DP 切片中隐式 CUDA 同步

推荐精读。该 PR 是高性能推理中消除隐式同步的典型案例,展示了如何通过 CPU 侧整数计算避免 GPU 同步。同时 review 中关于数据可用性的讨论值得关注,未来可能的改进方向可以增加防御性检查。

功能 重要性 7.62 洞察度 6.00

支持 ChatCompletion 风格的 /v1/tokenize

值得精读,尤其是 `_tokenize_chat_request` 的复用模式和 `TokenizeRequest` 的模型设计。展示了如何通过组合已有的 chat serving 能力来扩展简单端点,是 API 演进的良好范例。

#20479 Support Triton MLA FP8 KV cache

原始 PR · 作者 b8zhong · 合并时间 2026-05-07 09:32

性能优化 重要性 6.54 洞察度 6.00

支持 Triton MLA FP8 KV 缓存,长序列性能提升 91%

值得所有关注 MLA 和 Triton 内核优化的工程师精读。特别是 `v = tl.trans(k)` 技巧、KV Splits 的动态计算、以及 PDL 的使用都是可以直接复用到其他模型的优化模式。建议在后续 PR 中补充单元测试和 `k_scale==v_scale` 的检查。

#24313 [diffusion] chore: align LTX-2 with official

原始 PR · 作者 mickqian · 合并时间 2026-05-07 08:46

功能 重要性 9.18 洞察度 6.00

对齐 LTX-2 与官方实现的注意力语义和数值精度

建议精读以下部分: - Gemma3 注意力掩码和 GQA 处理方式的变更(`gemma_3.py`) - NumPy 双精度 RoPE 频率计算的实现(`ltx_2.py` / `ltx_2_connector.py`) - res2s 标量精度对齐策略(`ltx_2_denoising.py`) - 组件级注意力后端自动配置(`server_args.py`) 这些变更体现了将非标准注意力路径与官方逐位对齐的典型方法,值得扩散模型开发者参考。

#24565 Expand support matrix for pypi wheel release

原始 PR · 作者 Fridge003 · 合并时间 2026-05-07 08:39

基础设施 重要性 5.66 洞察度 6.00

扩展 PyPI 发布矩阵至多 Python 版本和双架构

该 PR 是基础设施改进,值得运维和 CI 团队关注。矩阵构建和并行发布的设计模式可复用至其他 Python 包发布流程。

#24117 [codex] Optimize Z-Image packed QKV

原始 PR · 作者 BBuf · 合并时间 2026-05-07 07:51

性能优化 重要性 7.01 洞察度 5.00

Z-Image 打包 QKV 投影优化,去噪延迟降低 35%

建议技术负责人和扩散模型开发者精读此 PR,特别是 `linear.py` 中 `_weight_loader_v2_block_quant_scale` 的实现,这是一个为融合线性层处理块量化权重的良好模式。未来类似模型(如 Flux/MMDiT)可借鉴此方案。

参与讨论