KDA 解码融合内核避免 Python 调度开销
值得精读。设计模式(针对特定形状定制 fusion kernel 消除调度开销)可推广至其他线性注意力变体。与 GDN packed decode 的差异点(per-K 门控 vs per-head 标量)展示了如何基于已有优化框架适配不同计算模式。
SGLang is a high-performance serving framework for large language models and multimodal models.
KDA 解码融合内核避免 Python 调度开销
值得精读。设计模式(针对特定形状定制 fusion kernel 消除调度开销)可推广至其他线性注意力变体。与 GDN packed decode 的差异点(per-K 门控 vs per-head 标量)展示了如何基于已有优化框架适配不同计算模式。
明确 Ascend NPU 专用参数值文档
可直接合并。作为文档改进,无需额外测试。适合精读以了解 Ascend NPU 的特定参数限制。
原始 PR · 作者 yctseng0211 · 合并时间 2026-06-01 16:17
AMD CI 内套件级 fast-fail 支持 bypass-fastfail 标签
这是一个经过深思熟虑的小型 CI 改进,与 NVIDIA 已有的模式一致。适合直接合并,无需深度审查。
增强SWA HiCache单元测试,模拟父优先写通备份和多节点树场景
建议测试工程师和缓存模块开发者精读此PR,学习如何通过模拟父优先备份路径编写更贴合生产逻辑的单元测试。新增的压力测试可作为参考用例,用于验证类似数据结构。
MoE fused gate 内核扩展至 256 专家并优化性能
建议详细阅读 CUDA 内核实现,特别是模板化 GateConfig 和 small-token 路径的优化技巧(bank-conflict-free 写入、单 pass renorm),对 CUDA 性能优化有参考价值。测试用例的 parametrize 重构也值得学习。
原始 PR · 作者 yctseng0211 · 合并时间 2026-06-01 16:00
修复 AMD CI 缓存目录空间不足
可合并以解决当前 CI 阻塞问题,但建议后续完善目录创建逻辑,避免缓存静默失效。
原始 PR · 作者 ZeyuanChen2000 · 合并时间 2026-06-01 15:32
修复 NPU 单机 DeepEP 模式下 RDMA 参数空指针异常
建议合并。变更简洁且目标明确,修复了特定配置下的崩溃。可考虑补充单元测试覆盖单机模式下的 on_deepep_dispatch_normal 调用。
原始 PR · 作者 WingEdge777 · 合并时间 2026-06-01 15:22
修复运行时 Docker 镜像缺少 sglang 入口脚本
该 PR 是标准的基础设施 bugfix,改动力度小,风险低。建议合入以修复用户端体验。无需特别关注设计决策。
参与讨论