Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-05-30

#26549 [UnifiedTree]: Support eviction priority

原始 PR · 作者 hzh0425 · 合并时间 2026-05-30 15:19

功能 重要性 7.22 洞察度 5.00

为 UnifiedRadixCache 和 RadixCache 引入 eviction priority 支持,节点可分配优先级影响驱逐顺序。

建议阅读此 PR,尤其关注 `get_eviction_strategy` 工厂函数和驱逐排序抽离的设计,对缓存策略扩展有参考价值。如需实现 QoS 分级,可直接使用 priority 策略。

#26764 [Hicache]: skip flaky test

原始 PR · 作者 hzh0425 · 合并时间 2026-05-30 15:16

测试 重要性 2.77 洞察度 2.00

跳过 HiCache 不稳定测试避免 CI 失败

作为临时措施合理,但建议创建 Issue 跟踪 flaky 测试的根因(如时序依赖或硬件差异),并计划后续修复后移除 skipIf。精读价值低。

#23122 [NPU] DFlash Speculative Decoding Support NPU

原始 PR · 作者 gjsheu · 合并时间 2026-05-30 15:13

功能 重要性 7.32 洞察度 5.00

适配 DFlash 推测解码至 Ascend NPU 平台

该 PR 是 DFlash 支持 NPU 的必要适配,展示了如何通过条件分支和硬件特定算子扩展新后端。对于想了解 SGLang 硬件适配模式的读者,值得精读。同时,建议跟进后续可能增加的单元测试和更多模型的验证。

缺陷修复 重要性 6.26 洞察度 5.00

修复 Ascend NPU CP 注意力 bs>1 崩溃

建议合并,修复明确且经过 review 验证。值得关注的设计决策是:CP 泛化后 NPU 路径的遗漏修复方式 —— 使用 `total_q_prev_tokens` 作为 Q 分割点而非全局二分。

文档 重要性 4.61 洞察度 3.00

新增 Qwen3.5-397B 在昇腾 A3 的部署最佳实践

对于 Ascend NPU 用户值得阅读并参考其中配置;对于非 NPU 用户了解即可。文档组织方式和锚点链接设计可作为后续文档编写的参考。

缺陷修复 重要性 7.42 洞察度 6.00

修复混合 return_routed_experts 标志导致服务器崩溃

值得精读,尤其是 `_GenerationStreamAccumulator` 中对可选输出字段的 '全部填充 None' 策略。该模式可以推广到其他需要按批次位置对齐输出字段的场景,保持 batch_position 不变性。

参与讨论