Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-05-18
重构 重要性 8.34 洞察度 7.00

将 CuteDSL v1 DeepEP 路径迁移到统一 MoeRunner

值得精读,尤其是统一 dataclass 的设计决策以及如何在不影响外部行为的前提下逐步淘汰遗留路径。该 PR 展示了 MoE 重构路线图的具体落地模式,对理解 SGLang 的 MoE 架构演变有重要参考价值。

2026-05-17

#25510 [diffusion] tighten selected perf baselines

原始 PR · 作者 mickqian · 合并时间 2026-05-17 23:35

测试 重要性 5.88 洞察度 3.00

收紧 H100 扩散性能基线并修复数据不一致

该 PR 主要是测试基准维护,不涉及核心逻辑改动,但对于管理 CI 性能基线的团队有参考价值。关注点在于如何从 CI 运行提取一致快照并确保数据自洽,避免手动编辑引入错误。对于一般开发者,了解其背景即可,无需深入精读。

性能优化 重要性 5.83 洞察度 5.00

torch.compile 加速 Wan 扩散模型推理

该 PR 展示了在扩散模型推理中应用 torch.compile 的典型模式:添加平台回退、新增 forward_xxx 方法、批量装饰原生方法。值得学习其平台分派和条件编译策略。改动虽小但提供清晰 benchmark,适合作为性能优化的参考案例。

功能 重要性 8.59 洞察度 6.00

默认编码器VAE启用layerwise offload

建议仔细阅读 `server_args_auto_tune.py` 中 `maybe_adjust_auto_component_residency_after_offload` 和 `_default_layerwise_components_for_unset_placement` 的逻辑,理解默认策略的触发条件。关注 VAE 默认组有限范围是否覆盖实际使用场景。评估引入更细粒度的组件组选择(根据 offload 标志)是否值得未来改进。该 PR 设计合理且向后兼容性做得较好(通过 `is_arg_explicitly_set`),可安全集成。

重构 重要性 8.91 洞察度 6.00

统一 DeepEPMoE 与 MoriEPMoE 的 AITER 调用路径,移除 MoriEPMoE 类

建议团队中关注 MoE 和 AMD 后端的同学精读此 PR,尤其关注 `AiterRunnerCore` 的设计和 `pre_permute`/`post_permute` 的注册机制,作为后端抽象模式的参考范例。同时建议在合并后尽快在 AMD CI 中添加覆盖各 a2a 后端的测试。

缺陷修复 重要性 6.27 洞察度 5.00

修复 write_back 模式下 radix cache 驱逐时未等待写回及 sanity 检查误报

建议阅读此 PR 以理解 write_back 与 write_through 模式下缓存驱逐的不同约束。设计决策在于如何让 sanity_check 兼容不同写策略,避免误报。对于使用 HiCache write_back 的生产环境,此修复至关重要。

参与讨论