修复 PD Disagg 预填充未 finalize 路由专家输出
建议合并。该 PR 修复了一个明确的遗漏 bug,修改量小,逻辑清晰,且已本地验证通过。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 PD Disagg 预填充未 finalize 路由专家输出
建议合并。该 PR 修复了一个明确的遗漏 bug,修改量小,逻辑清晰,且已本地验证通过。
文档中 Python 版本要求更新至 3.10+
建议精读,虽然是简单变更,但体现了保持文档与代码同步的重要性,适合作为文档维护的参考案例。
原始 PR · 作者 alisonshao · 合并时间 2026-04-28 06:27
降低 DeepSeek-V3 测试精度阈值至 0.60
建议合入,属于合理的 CI 维护。后续可观察模型精度趋势,必要时引入更鲁棒的评估指标。
修复 EAGLE3 分段 CUDA Graph 下 mm_input 丢失
值得精读:该 PR 修复了一个涉及分段 CUDA Graph 和推测解码交互的边界问题,代码简洁且有明确条件守卫,是理解 SGLang 推测解码与 CUDA Graph 如何协作的良好范例。
修复 Kimi-K2.5 CPU 路径 grid 键名不一致
可快速合并。对于涉及多路径(CPU/GPU)的键名重构,建议统一检查所有路径避免遗漏。
为 HiCache 添加 Context Parallelism 同步支持
建议精读 `cache_controller.py` 中的同步组创建逻辑(去重、gloo 后端选择)和 `hiradix_cache.py` 中的 fallback 到 tp_group 的策略,这些设计可用于其他需要跨并行组同步的场景。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-28 01:38
为 MiMo-V2.5 系列模型添加 cookbook 文档
值得阅读新的 cookbook 页面以了解 SGLang 对大型 MoE 模型的最新支持。部署生成器的约束设计(如根据模型变体和硬件自动调整 tp/dp/blackwell 标志)对编写同类文档有参考价值。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-28 01:31
为 docs_new 添加代码所有者
该 PR 为常规维护操作,无需特别关注。
参与讨论