为 UnifiedRadixCache 和 RadixCache 引入 eviction priority 支持,节点可分配优先级影响驱逐顺序。
建议阅读此 PR,尤其关注 `get_eviction_strategy` 工厂函数和驱逐排序抽离的设计,对缓存策略扩展有参考价值。如需实现 QoS 分级,可直接使用 priority 策略。
SGLang is a high-performance serving framework for large language models and multimodal models.
为 UnifiedRadixCache 和 RadixCache 引入 eviction priority 支持,节点可分配优先级影响驱逐顺序。
建议阅读此 PR,尤其关注 `get_eviction_strategy` 工厂函数和驱逐排序抽离的设计,对缓存策略扩展有参考价值。如需实现 QoS 分级,可直接使用 priority 策略。
跳过 HiCache 不稳定测试避免 CI 失败
作为临时措施合理,但建议创建 Issue 跟踪 flaky 测试的根因(如时序依赖或硬件差异),并计划后续修复后移除 skipIf。精读价值低。
适配 DFlash 推测解码至 Ascend NPU 平台
该 PR 是 DFlash 支持 NPU 的必要适配,展示了如何通过条件分支和硬件特定算子扩展新后端。对于想了解 SGLang 硬件适配模式的读者,值得精读。同时,建议跟进后续可能增加的单元测试和更多模型的验证。
修复 Ascend NPU CP 注意力 bs>1 崩溃
建议合并,修复明确且经过 review 验证。值得关注的设计决策是:CP 泛化后 NPU 路径的遗漏修复方式 —— 使用 `total_q_prev_tokens` 作为 Q 分割点而非全局二分。
原始 PR · 作者 silencejade · 合并时间 2026-05-30 14:20
新增 Qwen3.5-397B 在昇腾 A3 的部署最佳实践
对于 Ascend NPU 用户值得阅读并参考其中配置;对于非 NPU 用户了解即可。文档组织方式和锚点链接设计可作为后续文档编写的参考。
删除 ScheduleBatch 死亡字段
建议快速合并。这是典型的死代码清理变更,逻辑清晰且经过 CI 验证。
修复混合 return_routed_experts 标志导致服务器崩溃
值得精读,尤其是 `_GenerationStreamAccumulator` 中对可选输出字段的 '全部填充 None' 策略。该模式可以推广到其他需要按批次位置对齐输出字段的场景,保持 batch_position 不变性。
解除 CI 工作流对 main 分支的触发限制
值得快速合并,属于提升开发体验的小型基础设施调整。无需精读,但可关注后续类似 CI 策略调整。
参与讨论