Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-22

#25923 [Docs] DeepSeek-V4: switch H200 FP4 Pro to flashinfer_mxfp4, Flash Balanced too

原始 PR · 作者 zijiexia · 合并时间 2026-05-22 04:51

文档重要性 3.94 洞察度 3.00

DeepSeek-V4 H200 FP4 文档后端选择修正

此 PR 为纯文档修正，无需精读代码逻辑，但建议部署相关模型时参考基准数据以选择最佳后端。

documentationdeepseekperformance

#25974 [Fix]: Restrict Kimi-K2.5 shared-experts fusion to Quark MXFP4 checkpoints

原始 PR · 作者 Jiminator · 合并时间 2026-05-22 04:07

缺陷修复重要性 6.39 洞察度 5.00

修复Kimi-K2.5共享专家融合对非Quark检查点的误启用

值得快速合入，因为它修复了一个导致标准 Kimi-K2.5 完全无法使用的严重回归。设计决策（将 `quant_config.get_name() == "quark"` 作为门控条件）合理且注释详尽。建议在后续工作中考虑增加对新量化格式的通用支持，或将此门控抽象为可扩展的“fusion-capable quant config 允许列表”。

bugfixdeepseekquant

#26004 Default MegaMoE to W4A8 for Max-Throughput recipe

原始 PR · 作者 yhyang201 · 合并时间 2026-05-22 02:54

功能重要性 5.55 洞察度 3.00

Max-Throughput 配方自动启用 MegaMoE W4A8

此 PR 设计合理，实现简洁，建议合并。可作为前端配置自动化的参考模式。

deepseekfeaturedocumentation

#25678 [MoE Refactor] deprecate forward_npu and NpuFuseEPMoE

原始 PR · 作者 ch-wan · 合并时间 2026-05-22 01:25

重构重要性 9.18 洞察度 6.00

废弃 NPU 专用 MoE 前向路径和调度器，统一至 FusedMoE 流水线

值得精读，特别是 `forward_fuseep` 作为 free function 绕过调度器的模式。设计决策如将 `ascend_fuseep` 路由到 `StandardDispatcher` 占位、在 `quant_method` 中拦截 DeepEP 输出等，展示了如何在统一架构中嵌入硬件专用路径。对于需要扩展 SGLang MoE 后端的开发者，此 PR 是一个很好的模板。

npurefactormoe

2026-05-21

#25531 [lora] Remove synchronous .any().item() guard in LoRA MoE prefill path

原始 PR · 作者 yushengsu-thu · 合并时间 2026-05-21 23:58

性能优化重要性 6.18 洞察度 6.00

删除 LoRA MoE 中 GPU 同步瓶颈，提速 14%

该 PR 值得所有使用 LoRA+MoE 功能的工程师精读，尤其是关注 GPU 利用率优化的工程师。设计亮点在于：利用 Triton kernel 本身的早期退出机制替代昂贵的 host-device 同步，并通过 CPU 端预计算保留快速路径。决策清晰，性能收益显著，且无回归风险。

loraperformancemoe

#25930 [diffusion] chore: enable layerwise for wan

原始 PR · 作者 mickqian · 合并时间 2026-05-21 23:48

功能重要性 8.56 洞察度 6.00

Wan DiT layerwise 卸载默认开启

该 PR 值得阅读 `server_args_auto_tune.py` 中的条件判断与注释，它展示了显式 vs 隐式策略的典型设计权衡。但需注意 review 中未采纳的建议，可能是一个潜在的边界错误，建议团队在后续 PR 中修正。测试用例的设计也有参考价值，尤其是利用 mock 覆盖各种模型配置。

diffusionperformancefeature

#26001 [CI] bot-cherry-pick: surface created PR number/URL in job summary

原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-21 22:58

基础设施重要性 4.08 洞察度 3.00

cherry-pick 工作流输出新 PR 链接

可快速合入。对于频繁使用 cherry-pick 工作流的团队，此改进能提高效率。

ciinfra

#25956 Avoiding the problem of printing a large number of compatibility warn…

原始 PR · 作者 liuxianglong17 · 合并时间 2026-05-21 22:10

测试重要性 3.06 洞察度 3.00

抑制 Transformers 兼容性警告日志

PR 改动简单，无需深入精读。但 review 中关于环境变量覆盖的讨论值得注意：对于测试脚本，应优先使用 `os.getenv("VAR", default)` 模式以保留开发者调试的可能性。

nputestdebugging

第 85 / 357 页 · 共 2850 条

上一页 1 … 83 84 85 86 87 … 357 下一页