将 CuteDSL v1 DeepEP 路径迁移到统一 MoeRunner
值得精读,尤其是统一 dataclass 的设计决策以及如何在不影响外部行为的前提下逐步淘汰遗留路径。该 PR 展示了 MoE 重构路线图的具体落地模式,对理解 SGLang 的 MoE 架构演变有重要参考价值。
SGLang is a high-performance serving framework for large language models and multimodal models.
将 CuteDSL v1 DeepEP 路径迁移到统一 MoeRunner
值得精读,尤其是统一 dataclass 的设计决策以及如何在不影响外部行为的前提下逐步淘汰遗留路径。该 PR 展示了 MoE 重构路线图的具体落地模式,对理解 SGLang 的 MoE 架构演变有重要参考价值。
收紧 H100 扩散性能基线并修复数据不一致
该 PR 主要是测试基准维护,不涉及核心逻辑改动,但对于管理 CI 性能基线的团队有参考价值。关注点在于如何从 CI 运行提取一致快照并确保数据自洽,避免手动编辑引入错误。对于一般开发者,了解其背景即可,无需深入精读。
torch.compile 加速 Wan 扩散模型推理
该 PR 展示了在扩散模型推理中应用 torch.compile 的典型模式:添加平台回退、新增 forward_xxx 方法、批量装饰原生方法。值得学习其平台分派和条件编译策略。改动虽小但提供清晰 benchmark,适合作为性能优化的参考案例。
默认编码器VAE启用layerwise offload
建议仔细阅读 `server_args_auto_tune.py` 中 `maybe_adjust_auto_component_residency_after_offload` 和 `_default_layerwise_components_for_unset_placement` 的逻辑,理解默认策略的触发条件。关注 VAE 默认组有限范围是否覆盖实际使用场景。评估引入更细粒度的组件组选择(根据 offload 标志)是否值得未来改进。该 PR 设计合理且向后兼容性做得较好(通过 `is_arg_explicitly_set`),可安全集成。
统一 DeepEPMoE 与 MoriEPMoE 的 AITER 调用路径,移除 MoriEPMoE 类
建议团队中关注 MoE 和 AMD 后端的同学精读此 PR,尤其关注 `AiterRunnerCore` 的设计和 `pre_permute`/`post_permute` 的注册机制,作为后端抽象模式的参考范例。同时建议在合并后尽快在 AMD CI 中添加覆盖各 a2a 后端的测试。
修复 FlashInfer TRTLLM backend 日志重复输出
该 PR 为简单维护性变更,无需详细审查。
原始 PR · 作者 libertyeagle · 合并时间 2026-05-17 15:58
修复 write_back 模式下 radix cache 驱逐时未等待写回及 sanity 检查误报
建议阅读此 PR 以理解 write_back 与 write_through 模式下缓存驱逐的不同约束。设计决策在于如何让 sanity_check 兼容不同写策略,避免误报。对于使用 HiCache write_back 的生产环境,此修复至关重要。
原始 PR · 作者 amd-bishwoadhikari · 合并时间 2026-05-17 14:12
随机多模态数据集 token 统计增强
值得精读:展示了如何为调试目的添加细粒度统计信息,不引入风险。适合作为基准测试可观测性增强的参考模式。
参与讨论