Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-18

#25525 [MoE Refactor] Migrate flashinfer_cutedsl + DeepEP to MoeRunner

原始 PR · 作者 ch-wan · 合并时间 2026-05-18 05:48

重构重要性 8.34 洞察度 7.00

将 CuteDSL v1 DeepEP 路径迁移到统一 MoeRunner

值得精读，尤其是统一 dataclass 的设计决策以及如何在不影响外部行为的前提下逐步淘汰遗留路径。该 PR 展示了 MoE 重构路线图的具体落地模式，对理解 SGLang 的 MoE 架构演变有重要参考价值。

refactormoequant

2026-05-17

#25510 [diffusion] tighten selected perf baselines

原始 PR · 作者 mickqian · 合并时间 2026-05-17 23:35

测试重要性 5.88 洞察度 3.00

收紧 H100 扩散性能基线并修复数据不一致

该 PR 主要是测试基准维护，不涉及核心逻辑改动，但对于管理 CI 性能基线的团队有参考价值。关注点在于如何从 CI 运行提取一致快照并确保数据自洽，避免手动编辑引入错误。对于一般开发者，了解其背景即可，无需深入精读。

diffusionperformancetest

#25256 [MUSA][Diffusion] Improve wan model inference speed using torch.compile

原始 PR · 作者 wenqf11 · 合并时间 2026-05-17 22:10

性能优化重要性 5.83 洞察度 5.00

torch.compile 加速 Wan 扩散模型推理

该 PR 展示了在扩散模型推理中应用 torch.compile 的典型模式：添加平台回退、新增 forward_xxx 方法、批量装饰原生方法。值得学习其平台分派和条件编译策略。改动虽小但提供清晰 benchmark，适合作为性能优化的参考案例。

performancediffusionjit-kernel

#25517 [diffusion] feat: configure encoder as layerwise-offload by default

原始 PR · 作者 mickqian · 合并时间 2026-05-17 20:47

功能重要性 8.59 洞察度 6.00

默认编码器VAE启用layerwise offload

建议仔细阅读 `server_args_auto_tune.py` 中 `maybe_adjust_auto_component_residency_after_offload` 和 `_default_layerwise_components_for_unset_placement` 的逻辑，理解默认策略的触发条件。关注 VAE 默认组有限范围是否覆盖实际使用场景。评估引入更细粒度的组件组选择（根据 offload 标志）是否值得未来改进。该 PR 设计合理且向后兼容性做得较好（通过 `is_arg_explicitly_set`），可安全集成。

diffusionperformancerefactor

#23760 [MoE] Unify DeepEPMoE+MoriEPMoE through AITER MoeRunner pre/post-permute

原始 PR · 作者 ch-wan · 合并时间 2026-05-17 17:25

重构重要性 8.91 洞察度 6.00

统一 DeepEPMoE 与 MoriEPMoE 的 AITER 调用路径，移除 MoriEPMoE 类

建议团队中关注 MoE 和 AMD 后端的同学精读此 PR，尤其关注 `AiterRunnerCore` 的设计和 `pre_permute`/`post_permute` 的注册机制，作为后端抽象模式的参考范例。同时建议在合并后尽快在 AMD CI 中添加覆盖各 a2a 后端的测试。

refactormoeamd

#25522 Fix logging for inplace setting in the flashInfer-trtllm backend

原始 PR · 作者 ch-wan · 合并时间 2026-05-17 17:20

重构重要性 4.03 洞察度 2.00

修复 FlashInfer TRTLLM backend 日志重复输出

该 PR 为简单维护性变更，无需详细审查。

refactorobservabilitymoe

#24585 fix(unified radix cache w/ hicache): backup ancestor nodes before leaf in write_back eviction

原始 PR · 作者 libertyeagle · 合并时间 2026-05-17 15:58

缺陷修复重要性 6.27 洞察度 5.00

修复 write_back 模式下 radix cache 驱逐时未等待写回及 sanity 检查误报

建议阅读此 PR 以理解 write_back 与 write_through 模式下缓存驱逐的不同约束。设计决策在于如何让 sanity_check 兼容不同写策略，避免误报。对于使用 HiCache write_back 的生产环境，此修复至关重要。

bugfixhicachetest

#22371 Fix image (random multimodal) dataset token statistics

原始 PR · 作者 amd-bishwoadhikari · 合并时间 2026-05-17 14:12

功能重要性 5.14 洞察度 2.00

随机多模态数据集 token 统计增强

值得精读：展示了如何为调试目的添加细粒度统计信息，不引入风险。适合作为基准测试可观测性增强的参考模式。

observabilitybenchmarkmultimodal

第 113 / 357 页 · 共 2850 条

上一页 1 … 111 112 113 114 115 … 357 下一页