限制预填充 inflight 轮询警告频率
值得合并,变更安全且目标明确。建议阅读 review 讨论中关于 `KVPoll.Bootstrapping` 状态异常的跟踪 issue (#25063),以排查底层根本原因。
SGLang is a high-performance serving framework for large language models and multimodal models.
限制预填充 inflight 轮询警告频率
值得合并,变更安全且目标明确。建议阅读 review 讨论中关于 `KVPoll.Bootstrapping` 状态异常的跟踪 issue (#25063),以排查底层根本原因。
原始 PR · 作者 minosfuture · 合并时间 2026-05-12 12:46
线性注意力后端枚举扩展自定义插件支持
值得精读。该 PR 展示了如何通过 Python 枚举的 `_missing_` 机制实现安全的插件式扩展,是一种简洁且不破坏现有 API 的设计模式。可作为 sglang 内部其他枚举扩展的参考。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-12 11:58
修复 Kimi K2.5 MLA EAGLE 在 DP 注意力下的 embedding 越界
建议合并,该修复解决了明确的 runtime 错误。但应跟踪后续是否添加对应测试。
原始 PR · 作者 AgainstEntropy · 合并时间 2026-05-12 11:52
修复 Qwen3-ASR 配置初始化顺序崩溃
值得立即合入。这是一个精确的构造顺序修复,属于经典 Python 初始化陷阱,值得团队在自定义配置类中注意此类依赖顺序。
清理 Mamba 散射逻辑并修复多层位置 bug
值得阅读以了解代码重构和命名规范化实践。设计决策包括统一参数名称、简化计算步骤、保留向后兼容。
原始 PR · 作者 Jianhong-Zhang · 合并时间 2026-05-12 11:02
修复 XPU 上 uint64 溢出导致 KV 缓存通信失败
值得合并,修复目标准确,改动极小且安全。建议在后续版本中补充针对不匹配 TP 大小的集成测试,以覆盖回归。
原始 PR · 作者 yeahdongcn · 合并时间 2026-05-12 10:50
MUSA 平台新增 Sage Attention 后端支持
可直接合并。但对于新版 sglang 来说,建议在后续 PR 中添加 Sage Attention 后端的测试覆盖,并在文档中明确说明 Sage Attention 后端的安装要求和性能对比。此外,回退行为可考虑增加 warning 日志,以便用户及时发现配置问题。
原始 PR · 作者 alphabetc1 · 合并时间 2026-05-12 09:49
更改 HiCache 预取超时默认值并添加上限
本 PR 是生产环境优化的重要一步,值得阅读其设计决策:引入硬上限防止长 prompt 无限等待,以及对默认超时参数的理论推导。如果有自定义预取策略的用户需要注意默认行为的变更。
参与讨论