修复 DSv4 非 cuda-graph 路径下 multi-step draft 的 KV 写入布局错误
建议合并。该修复针对明确 bug,方案简洁且提取了共享逻辑,有助于后期维护。后续可考虑增加测试覆盖非 cuda-graph 的 draft 路径。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 DSv4 非 cuda-graph 路径下 multi-step draft 的 KV 写入布局错误
建议合并。该修复针对明确 bug,方案简洁且提取了共享逻辑,有助于后期维护。后续可考虑增加测试覆盖非 cuda-graph 的 draft 路径。
拆分 distributed 测试目录为主题子文件夹
此 PR 是一次测试基础设施的清理,值得了解测试组织方式,但技术洞察有限。主要价值在于维护测试目录的可管理性。
原始 PR · 作者 minosfuture · 合并时间 2026-05-25 06:53
新增 opt-out 开关跳过 SP gather 路径
该 PR 值得精读,尤其是需要优化解码性能或集成新模型的工程师: - 学习如何通过短小精悍的配置项绕过对性能有害的通用路径。 - 关注 `require_attn_tp_gather` 的短路模式,可作为类似优化的模板。
原始 PR · 作者 merrymercy · 合并时间 2026-05-25 05:35
合并降级启动日志,消除约27行噪声
推荐阅读,作为日志清理的典范,展示了如何平衡可见性与噪声控制。
Streaming session 延迟测试改用 tail/head 稳定性断言
值得参考其测试设计思路:当 baseline 不稳定时,改测内在属性作为断言。变更简单明确,建议直接合并。
原始 PR · 作者 polisettyvarma · 合并时间 2026-05-25 03:59
修复 TVM FFI 导入在 Intel GPU 上的兼容问题
该 PR 修改简洁明确,值得快速合并。虽然讨论中提出了长期方案,但当前修复是必要的兼容性适配,建议阅读作为 Intel GPU 支持系列的一部分。
降级 SWA 日志级别从 warning 到 debug
简单且正确的更改,建议合并。缓存键安全问题可单独追踪,但不阻碍此 PR。
支持 DeepSeek-V4 EPLB 专家负载均衡
值得 merge。修复了里程碑模型 DSV4 的 EPLB 功能,改动小而精准。建议补充 EPLB 相关的集成测试以覆盖未来回归。
参与讨论