修复 PD 解耦模式下 bootstrap_room 残留导致的误报
值得合并,修复了 PR #17430 的回归;建议阅读代码中 `_commit_transfer_to_req()` 的 sentinel 逻辑以理解上下文。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 PD 解耦模式下 bootstrap_room 残留导致的误报
值得合并,修复了 PR #17430 的回归;建议阅读代码中 `_commit_transfer_to_req()` 的 sentinel 逻辑以理解上下文。
AMD Qwen3.5 alt stream 支持与性能调优
值得精读,尤其是如何通过环境变量和 server args 精细控制子模块行为,并在性能与兼容性之间做出权衡。设计思路可推广到其他模型的类似优化。
原始 PR · 作者 yeahdongcn · 合并时间 2026-06-05 19:15
修复 MUSA 平台下 LingBot World 时间步数据类型
该 PR 是典型的平台兼容性修复,值得所有需要跨硬件类型运行的团队参考。尤其是 `current_platform.is_float64_supported()` 这种设计模式,可以作为未来处理类似数据类型兼容问题的通用范式。建议合入后,在 MUSA CI 中加入相关测试用例以防止回归。
更新 ROCm Dockerfile 中 AITER 默认 commit hash
该 PR 为常规的依赖更新,内容简单直接。建议在后续的 ROCm Dockerfile 重构中考虑将公共构建参数提取为全局 `ARG`,以减少重复和维护成本。
更新 Qwen3-Next-80B-A3B 的 NPU 最佳实践文档
该 PR 内容清晰,文档质量较好,推荐用户参考其中的配置部署 Qwen3-Next-80B-A3B 模型。后续可关注 `SGLANG_ENABLE_TP_MEMORY_INBALANCE_CHECK` 拼写是否修正,避免用户误用。
优化LingBot实时传输和相机条件化,延迟降低10%
值得精读,尤其是相机条件器缓存设计中基于source tensor identity的键构建和条件判断,以及传输层将delta-gzip降级为raw bytes的权衡决策。测试覆盖充分,可作为性能优化PR的典范。
原始 PR · 作者 huangtingwei9988 · 合并时间 2026-06-05 15:39
支持 DeepSeek V4 HiSparse 直接 PD 主机传输,TTFT 降 7-9%
此 PR 涉及推理引擎内核、内存池、JIT 编译和远程传输多个模块的联动修改,建议所有参与 SGLang 推理引擎开发的同学精读。尤其是 `DeepSeekV4PagedHostPool` 的布局设计、`transfer_cache_dsv4_mla` 的 JIT 实现、以及 Mooncake 传输的 PP 对齐策略,具有较高的参考价值。
原始 PR · 作者 yctseng0211 · 合并时间 2026-06-05 15:06
修复 AMD CI 分区 3 被跳过的问题
该 PR 值得合入,它修复了一个静默跳过测试的配置 bug,且修改量极小(一行)。无需深入代码审查,但应确保新增分区 3 的测试在后续 CI 运行中稳定通过。
参与讨论