Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-24

#26100 [VLM] adopt simplified get_rope_index for image-only requests

原始 PR · 作者 mickqian · 合并时间 2026-05-24 11:51

性能优化重要性 7.73 洞察度 5.00

新增Qwen图像请求MRoPE快速路径

建议技术负责人关注该 PR 中的快速路径设计模式，后续为其他多模态模型（如 DeepSeek-VL）提供类似优化时可借鉴。当前代码缺少测试覆盖，建议补充新路径与通用路径的等价性测试。硬编码模型列表可重构为类常量以降低维护成本。

multimodalperformancefeature

#25898 [AMD] Dsv4/pr1 fix run time issue

原始 PR · 作者 kkHuang-amd · 合并时间 2026-05-24 07:04

缺陷修复重要性 9.36 洞察度 6.00

修复 DSV4 在 AMD GPU 上的运行时崩溃与 JIT 不兼容

推荐在 AMD 平台上部署 DeepSeek-V4 的团队仔细审查此 PR，特别是 JIT 内核的 HIP 兼容细节和 Triton fallback 的选择。对于未使用 AMD 的团队，可忽略此 PR。关于 rounding 不一致的问题建议与作者确认后续修复。

amddeepseeksgl-kernel

#26169 Suppress cutlass-dsl noisy warning

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-24 04:19

缺陷修复重要性 5.79 洞察度 3.00

抑制 cutlass-dsl 噪音警告日志

值得精读，代码量小但展示了双层抑制警告的技巧（标准 filterwarnings + showwarning patch），对于抑制第三方库绕过滤器的警告有参考价值。

bugfixinfra

#25403 [FIX][2/2] fix step3-vl/deepseek-ocr image processor error

原始 PR · 作者 kousakawang · 合并时间 2026-05-24 01:36

缺陷修复重要性 8.25 洞察度 5.00

修复 DeepSeek-OCR GPU 解码 tensor 类型不兼容

值得精读。此 PR 展示了如何优雅地在一个关键路径上解决 PIL.Image 与 torch.Tensor 的兼容问题，通过类型受限的统一函数（`Union[Image.Image, torch.Tensor]`）避免散乱的条件判断，是处理多模态预处理中 GPU 解码类型不一致的范本。同时 review 中的性能建议（复用函数结果）反映了代码审阅的最佳实践。

bugfixdeepseekmultimodal

2026-05-23

#25925 [Spec] trtllm mha supports overlap plan stream

原始 PR · 作者 hanming-lu · 合并时间 2026-05-23 18:25

功能重要性 5.04 洞察度 5.00

TRTLLM MHA 后端支持 overlap plan stream

该 PR 改动极小，但反映了 overlap plan stream 调度架构对不同 attention 后端的接口要求。值得关注的是接口设计的一致性问题：如果未来其他后端也需要支持 overlap，应考虑在基类中添加抽象方法或默认空实现。建议精读相关调度器代码，了解 `update_verify_buffers_to_fill_after_draft` 的调用路径。

blackwellperformancescheduling

#26170 fix tokenspeed_mla attn kernel jit

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-23 18:24

缺陷修复重要性 5.31 洞察度 3.00

修复 tokenspeed_mla 预编译 kernel 数据类型

建议合入。此修复虽小，但修正了一个核心路径上的类型不匹配问题，有助于保障 FP8 MLA 推理的正确性和 debug 效率。若团队有 E2E 测试覆盖，建议运行确认无回归。

bugfixjit-kernelmla

#26026 [bug fix] Fix 3 issues when using Gemma4 MTP

原始 PR · 作者 pyc96 · 合并时间 2026-05-23 18:16

缺陷修复重要性 6.53 洞察度 5.00

修复 Gemma4 MTP 三个初始化崩溃问题

此 PR 值得关注，它展示了处理模型初始化兼容性问题的典型模式： - 当子类跳过了父类的 `__init__` 时，需要显式设置父类依赖的成员变量。 - 对于 MoE 模型的 Dense 变体，需要安全处理 `num_experts` 缺失的情况。 - 硬件特定的自动后端选择应结合量化类型共同判断，避免对不支持的后端进行硬编码。建议其他模型后端自动选择逻辑也参考此模式。

bugfixdeepseekspeculative-decoding

#23292 [CP] 1/N: Support MLA Prefill Context Parallel

原始 PR · 作者 kpham-sgl · 合并时间 2026-05-23 18:07

功能重要性 8.74 洞察度 6.00

为 MLA 模型添加预填充上下文并行支持

值得精读。本 PR 展示了如何通过精心的模块化设计，以最小改动复用 NSA CP 的大量基础设施（通信器、KV 收集、zigzag 分割），体现了 sglang 注意力层抽象的良好扩展性。尤其关注 `flashattention_backend.py` 中 `_mla_cp_attn` 的封装方式以及 `cp_utils.py` 中路由守卫的层次设计，是工程与算法结合的典型案例。

deepseekattentionscheduling

第 76 / 357 页 · 共 2850 条

上一页 1 … 74 75 76 77 78 … 357 下一页