3FS 存储后端支持 Mamba 与 DSA 混合模型
值得精读:展示了如何在不破坏向后兼容的前提下扩展存储元数据协议,namespace 设计清晰。建议关注未解决的性能 TODO(预分配 staging buffer),并推动后续 PR 补充单元测试和性能基准。
SGLang is a high-performance serving framework for large language models and multimodal models.
3FS 存储后端支持 Mamba 与 DSA 混合模型
值得精读:展示了如何在不破坏向后兼容的前提下扩展存储元数据协议,namespace 设计清晰。建议关注未解决的性能 TODO(预分配 staging buffer),并推动后续 PR 补充单元测试和性能基准。
添加逐步骤 SDE 过滤与轨迹捕获选项
值得精读,尤其是 `scheduler_rl_mixin.py` 中按步骤选择 SDE 类型的设计,和 `rollout_denoising_mixin.py` 中轨迹收集过滤的实现。测试中的严格位精确断言也是良好实践。
原始 PR · 作者 siju-samuel · 合并时间 2026-04-24 19:52
支持XPU流水线并行,设备无关化并修复死锁
值得精读,尤其是设备无关化和奇偶通信策略的设计。对于需要支持多后端(AMD、MUSA 等)的团队,此为可复用的模式。PR 的 review 讨论也展示了如何识别并修复因初始化顺序导致的问题。
实现不依赖 torch.compile 的可打断 CUDA 图(BCG)
该 PR 值得所有关注调度优化的开发者精读,尤其是 `breakable_cuda_graph_runner.py` 和 `breakable_cuda_graph.py` 中的图捕获与回放机制。设计上使用 contextvar 和函数装饰器实现图打断,比基于 FX 的路径更直观且易调试。但在生产环境中启用前,应在目标模型架构上进行充分的性能验证,并留意弱引用张量的边界问题。
统一LTX-2.3高质量代码路径,修复语义差异
建议仔细审视非HQ LTX-2.3输出变化是否符合预期,并优先合并后续的一致性GT更新PR。开发者可关注`is_ltx23_native_variant`辅助函数的统一使用。
原始 PR · 作者 yctseng0211 · 合并时间 2026-04-24 17:39
修复AMD夜间Docker版本标签排序问题
此PR是基础设施维护类变更,逻辑相对简单,但review中提出的路径鲁棒性问题值得关注。建议在后续的PR中跟进修复路径问题,使用`$BASH_SOURCE`构建相对路径。对于想了解SGLang CI流水线的读者,此PR展示了如何统一版本标签选择逻辑。
原始 PR · 作者 ShangmingCai · 合并时间 2026-04-24 17:36
回退XPU流水线并行支持,修复CI中断
建议立即合并此revert以解除CI阻塞。原作者应重新审查PR #23472的XPU通信逻辑(尤其是send/recv编排),添加针对XPU的自动化测试后再提交。同时注意按照review建议修正返回类型注解。
修复 MXFP8 MoE 测试由于回归导致的不稳定
该 PR 应被合并以快速恢复 CI,但建议创建后续 Issue 跟踪:1) 将离线检查点迁移至 SGLang 官方 HF 组织;2) 修复 `flashinfer_trtllm` 后端的 padding 不稳定问题,使其能重新成为默认测试后端。
参与讨论