将 DeepGemm 从 sglang-kernel 剥离为独立 wheel
核心架构调整,值得仔细审查。重点关注 `nsa_backend.py` 中的 `_to_2d_context_lens` 适配逻辑和 `fp8_utils.py` 中的 stride 修复,它们直接关系到 DeepSeek 等模型在 FP8 下的正确性。建议在合并后运行完整的 DeepSeek 集成测试以验证无精度退化。
SGLang is a high-performance serving framework for large language models and multimodal models.
将 DeepGemm 从 sglang-kernel 剥离为独立 wheel
核心架构调整,值得仔细审查。重点关注 `nsa_backend.py` 中的 `_to_2d_context_lens` 适配逻辑和 `fp8_utils.py` 中的 stride 修复,它们直接关系到 DeepSeek 等模型在 FP8 下的正确性。建议在合并后运行完整的 DeepSeek 集成测试以验证无精度退化。
修复CI中bare pytest.main导致失败被吞没
该PR是典型的CI可靠性修复,设计思路清晰(AST扫描而非侵入式修改运行器)。建议阅读`test_no_bare_pytest_main.py`的实现,了解如何用AST做仓库级别的规则检查。对于贡献者,在提交包含`pytest.main`的测试文件时,务必使用`sys.exit(pytest.main(...))`。
原始 PR · 作者 zyzshishui · 合并时间 2026-05-07 09:37
避免 routed experts DP 切片中隐式 CUDA 同步
推荐精读。该 PR 是高性能推理中消除隐式同步的典型案例,展示了如何通过 CPU 侧整数计算避免 GPU 同步。同时 review 中关于数据可用性的讨论值得关注,未来可能的改进方向可以增加防御性检查。
原始 PR · 作者 huangtingwei9988 · 合并时间 2026-05-07 09:35
支持 ChatCompletion 风格的 /v1/tokenize
值得精读,尤其是 `_tokenize_chat_request` 的复用模式和 `TokenizeRequest` 的模型设计。展示了如何通过组合已有的 chat serving 能力来扩展简单端点,是 API 演进的良好范例。
支持 Triton MLA FP8 KV 缓存,长序列性能提升 91%
值得所有关注 MLA 和 Triton 内核优化的工程师精读。特别是 `v = tl.trans(k)` 技巧、KV Splits 的动态计算、以及 PDL 的使用都是可以直接复用到其他模型的优化模式。建议在后续 PR 中补充单元测试和 `k_scale==v_scale` 的检查。
对齐 LTX-2 与官方实现的注意力语义和数值精度
建议精读以下部分: - Gemma3 注意力掩码和 GQA 处理方式的变更(`gemma_3.py`) - NumPy 双精度 RoPE 频率计算的实现(`ltx_2.py` / `ltx_2_connector.py`) - res2s 标量精度对齐策略(`ltx_2_denoising.py`) - 组件级注意力后端自动配置(`server_args.py`) 这些变更体现了将非标准注意力路径与官方逐位对齐的典型方法,值得扩散模型开发者参考。
扩展 PyPI 发布矩阵至多 Python 版本和双架构
该 PR 是基础设施改进,值得运维和 CI 团队关注。矩阵构建和并行发布的设计模式可复用至其他 Python 包发布流程。
Z-Image 打包 QKV 投影优化,去噪延迟降低 35%
建议技术负责人和扩散模型开发者精读此 PR,特别是 `linear.py` 中 `_weight_loader_v2_block_quant_scale` 的实现,这是一个为融合线性层处理块量化权重的良好模式。未来类似模型(如 Flux/MMDiT)可借鉴此方案。
参与讨论