Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-13 17:27 同步状态：空闲下次计划：2026-06-13 18:27

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-14

#25052 DeepSeek V4 w4a4 MegaMoE

原始 PR · 作者 Fridge003 · 合并时间 2026-05-14 09:35

功能重要性 8.10 洞察度 5.00

新增 DeepSeek V4 w4a4 MegaMoE 推理支持

建议阅读此 PR 以了解如何在 SGLang 中新增 DeepGEMM 后端的量化选项。环境变量转导模式（`_apply_mega_moe_dg_env`）是一个简洁的跨库配置传递方式，值得借鉴。团队应跟进 sgl-deep-gemm 版本发布，并考虑在更多模型上验证 w4a4 效果。

deepseekperformancequant

#21431 [Diffusion] [AMD] Online MXFP4 and FP8 Quantization for Multimodal Generation

原始 PR · 作者 ColinZ22 · 合并时间 2026-05-14 08:52

功能重要性 8.96 洞察度 6.00

为多模态生成添加在线 MXFP4/FP8 量化支持

该 PR 值得认真阅读，特别是对量化扩展有兴趣的开发者。`Mxfp4Config` 和 `Mxfp4LinearMethod` 的设计模式（继承 `QuantizationConfig`、`LinearMethodBase`）可作为后续添加新量化方法的参考。Flash Attention 的 FA2 回退处理也是一个良好的兼容性示范。建议重点关注 `quantization-ignored-layers` 的传递正确性以及 FP8 后端的修复进展。

diffusionquantfeature

#24719 [sgl-model-gateway] Close PyO3 binding gaps and add regression tests

原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-14 08:43

重构重要性 8.20 洞察度 6.00

补齐PyO3绑定缺口并添加回归测试

值得精读，特别是 PyO3 绑定模式和测试策略。该 PR 展示了如何安全扩展跨语言绑定，并通过直接调用底层 Rust 类的测试防止接口漂移。对于即将参与绑定开发的工程师，是很好的 reference。

model-gatewaytestinfra

#24925 [attn backend] Integrate tokenspeed_mla prefill/decode kernels (fp8 kv cache, blackwell)

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-14 08:36

功能重要性 9.18 洞察度 6.00

集成 tokenspeed_mla Blackwell MLA 内核后端

建议阅读 `tokenspeed_mla_backend.py` 了解子类化扩展点设计，学习如何通过重构 `trtllm_mla_backend.py` 实现内核调度可替换。关注 `tokenspeed_mla` 包的安装与验证流程。未来可基于此模式集成更多 CuTe DSL 内核。

featureperformancekv-cache

#25197 ci: decouple stage and runner for cuda registry

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-14 08:28

重构重要性 6.19 洞察度 6.00

拆分CI注册suite为stage和runner_config

该 PR 展示了如何通过 AST 工具进行大规模安全重构，值得 CI 基础设施维护者精读。建议合并后提醒团队迁移期间避免同时修改注册点。

ciinfrarefactor

#25192 chore(ci_monitor): drop post_bisect_to_slack

原始 PR · 作者 alisonshao · 合并时间 2026-05-14 08:05

重构重要性 6.85 洞察度 2.00

删除 post_bisect_to_slack 脚本并更新注释

建议快速合并。该清理不引入任何新风险，同时降低了维护成本。后续可考虑是否还需要保留 `ci_auto_bisect.py` 中的错误结果输出 JSON 文件功能，但目前影响不大。

infracirefactor

#25190 fix(nvfp4): make process_weights_after_loading hot-reload-safe via alias-when-same-shape

原始 PR · 作者 ch-wan · 合并时间 2026-05-14 07:57

缺陷修复重要性 7.36 洞察度 7.00

使 NVFP4 权重后处理支持热重载

PR 值得精读，特别是 `alias_or_bind_derived_param` 的实现和在 `process_weights_after_loading` 中的调用方式。该 PR 展示了如何在保持内存优化的同时解决热重载正确性问题，设计模式（别名共享 vs. 回退分配）对类似问题有参考价值。建议关注 scalar 参数不别名背后的原因，避免未来重蹈覆辙。

bugfixquantperformance

#24986 [rebase]Deepseek_v4 support w4(mxfp4)a16 on hopper

原始 PR · 作者 shiyu7 · 合并时间 2026-05-14 07:33

功能重要性 7.61 洞察度 5.00

DeepSeek V4 新增 Hopper MXFP4 Marlin 支持

该 PR 是对 DeepSeek V4 MXFP4 量化支持的关键移植，值得关注其权重名称兼容性设计和 Marlin 集成模式。建议团队统一量化体系结构后考虑合并两条后端。