PP 中跳过纯 chunked prefill 批次的输出通信,释放 SM 资源提升性能
建议阅读:理解 pipeline parallelism 中 SM 占用对 kernel 延迟的影响及如何通过跳过无用通信优化。若部署 DeepSeek-V4 长输入场景(256K token),可启用该优化获得 3-7% TTFT 收益。代码实现简洁(+112 行),验证充分,值得参考。
SGLang is a high-performance serving framework for large language models and multimodal models.
PP 中跳过纯 chunked prefill 批次的输出通信,释放 SM 资源提升性能
建议阅读:理解 pipeline parallelism 中 SM 占用对 kernel 延迟的影响及如何通过跳过无用通信优化。若部署 DeepSeek-V4 长输入场景(256K token),可启用该优化获得 3-7% TTFT 收益。代码实现简洁(+112 行),验证充分,值得参考。
修复 CI 中 legacy docs/ 变更检测失效问题
该 PR 属于基础设施加固,值得关注其通过三路 diff 替代 `--cached` 的思路,以及显式 diff 失败处理的模式。对于贡献者而言,应了解 `docs/` 目录的新校验规则。
原始 PR · 作者 michaelzhang-ai · 合并时间 2026-05-26 17:47
回退 EAGLE topk==1 跳过 softmax 优化
该 PR 是紧急修复回退,建议所有使用 EAGLE + MTP 的部署立即合入。对于仅使用标准 EAGLE 且关注性能的团队,可关注后续优化的重新提交通常采用 `topk==1 AND not is_mtp_path` 的 guard 或数学恒等式 softmax 优化。PR 的讨论和 PR Body 中的根因分析方法值得精读,展示了精确的跨运行对比和手动验证流程。
提取 Scheduler.__init__ 中 13 个组件构造为独立 init_* 方法
值得精读,尤其是提取策略和字节等价验证方法。展示了如何在不影响行为的前提下提升可定制性,并配备 Agent 技能文档以自动化约束。review 中关于 `None` 初始化的未采纳建议值得后续跟进。
检查 cudaHostRegister 返回值,失败时抛出异常
该 PR 小而精,值得精读作为一个良好实践:在系统编程中始终检查 CUDA API 的返回码。可直接合并,无需额外关注。
原始 PR · 作者 yctseng0211 · 合并时间 2026-05-26 17:25
放宽 AMD CI 超时限制
建议快速合入。该 PR 是纯运维调整,无代码风险,能有效缓解 AMD CI 的超时问题。后续可考虑优化测试速度或采用更智能的超时策略。
原始 PR · 作者 roikoren755 · 合并时间 2026-05-26 16:03
为 Mamba2 模型支持 extra_buffer 调度策略
该 PR 展示了如何将 extra_buffer 策略从 FLA 扩展到 Mamba2,其 chunk size 统一思路值得借鉴。但由于合并后出现回归,建议暂停部署,待作者修复后重新 review。阅读此 PR 可重点关注 `_init_track_ssm_indices` 中的索引映射逻辑和 `mamba_cache_chunk_size` 的动态计算过程。
回退工具参数 JSON Schema 类型规范化功能
该 PR 为紧急回退,变更简单明确,无需精读。但建议关注后续对原功能的重新实现,特别是增加充足的测试覆盖以避免 CI 问题。
参与讨论