Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-06-01

#26586 [KDA] Support KDA packed decode

原始 PR · 作者 yuan-luo · 合并时间 2026-06-01 16:52

功能 重要性 9.00 洞察度 5.00

KDA 解码融合内核避免 Python 调度开销

值得精读。设计模式(针对特定形状定制 fusion kernel 消除调度开销)可推广至其他线性注意力变体。与 GDN packed decode 的差异点(per-K 门控 vs per-head 标量)展示了如何基于已有优化框架适配不同计算模式。

测试 重要性 6.51 洞察度 5.00

增强SWA HiCache单元测试,模拟父优先写通备份和多节点树场景

建议测试工程师和缓存模块开发者精读此PR,学习如何通过模拟父优先备份路径编写更贴合生产逻辑的单元测试。新增的压力测试可作为参考用例,用于验证类似数据结构。

功能 重要性 5.91 洞察度 7.00

MoE fused gate 内核扩展至 256 专家并优化性能

建议详细阅读 CUDA 内核实现,特别是模板化 GateConfig 和 small-token 路径的优化技巧(bank-conflict-free 写入、单 pass renorm),对 CUDA 性能优化有参考价值。测试用例的 parametrize 重构也值得学习。

参与讨论