修复 Mamba2Metadata 丢失 has_mamba_track_mask 字段
值得精读。该 PR 展示了一个典型的“新字段添加但构造方法未同步”的缺陷模式,对维护多构造函数的数据类有警示意义。建议开发者在添加新字段时,同步更新所有 `__init__` 调用点。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 Mamba2Metadata 丢失 has_mamba_track_mask 字段
值得精读。该 PR 展示了一个典型的“新字段添加但构造方法未同步”的缺陷模式,对维护多构造函数的数据类有警示意义。建议开发者在添加新字段时,同步更新所有 `__init__` 调用点。
修复 NPU profiler 算子形状缺失
该 PR 改动简单直接,对于 NPU 用户来说是一个重要的 profiling 修复。值得精读以了解 NPU profiling 配置方式。
SWA LRU 窗口感知刷新,提升前缀缓存命中率
值得精读,尤其关注 `refresh_lru` 的接口设计(使用 phase 参数统一不同阶段的刷新逻辑)和窗口限制祖先刷新的实现。对于维护 SWA 或其他特殊缓存策略的开发者有参考价值。
解除DS V4 PD prefill的SWA上限
该PR改动虽小,但揭示了继承层次导致的容量管理bug,值得研读。对PD分离部署和SWA pool设计感兴趣的工程师可以重点关注。
原始 PR · 作者 EanWang211123 · 合并时间 2026-06-01 19:19
NPU 自适应推测解码支持
建议审核并合并。该 PR 改动简洁、目的明确,已在 Ascend 910B 上进行准确性和性能测试,结果积极。无安全或兼容性顾虑。
EAGLE推测测试重构为共享Fixture+Kit
建议阅读本 PR 了解测试架构重构实践,尤其是 Fixture+Kit 模式如何提高可维护性和覆盖率表达能力。该模式值得在 SGLang 其他测试模块中推广。
精确锁定 compressed-tensors 版本修复 ROCm 构建
值得立即合入以恢复 ROCm 每日构建。后续可关注 ROCm 基础镜像更新,适时解除压缩。
原始 PR · 作者 ntgiang71096 · 合并时间 2026-06-01 16:52
异步图像预处理提升 EPD 编码器吞吐
建议 EPD 相关开发者阅读本 PR,了解如何通过异步化在不改变模型输出的情况下显著提升编码器性能。线程池隔离、环境变量配置、以及根据 review 缩小范围与其他 PR 分工的协作方式值得学习。
参与讨论