修复Mooncake存储后端在Ascend HIXL环境下的初始化错误并扩展布局支持。
建议开发者在涉及NPU部署、Mooncake传输引擎或HiCache存储后端时精读此PR,特别关注初始化顺序的设计决策和'page_first_kv_spilt'布局的兼容性扩展。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复Mooncake存储后端在Ascend HIXL环境下的初始化错误并扩展布局支持。
建议开发者在涉及NPU部署、Mooncake传输引擎或HiCache存储后端时精读此PR,特别关注初始化顺序的设计决策和'page_first_kv_spilt'布局的兼容性扩展。
修正 Ascend NPU 文档中 Kimi 模型的组织名称拼写错误。
该 PR 不值得精读,除非您负责维护 Ascend NPU 文档或需要了解 Kimi 模型的确切路径。变更简单直接,没有值得关注的设计决策。
原始 PR · 作者 Hide-on-bushsh · 合并时间 2026-04-14 20:03
更新 Ascend NPU 卸载功能文档,明确参数支持状态和使用约束。
该 PR 为纯文档更新,无需精读代码。对于关注 NPU 平台卸载功能演进的开发者,可快速浏览以了解参数支持状态的变化;对于技术管理者,可作为 NPU 功能成熟度提升的佐证。
修复文档中工具调用解析器选项格式
该 PR 已合并,无需额外操作。推荐在以后的文档变更中注意表格内换行符后的空格一致性。
更新Ascend NPU贡献指南中的过时描述和文件引用。
该PR为简单的文档更新,无需精读。对于NPU贡献者或文档维护者,可关注文件命名规范从“ascend”到“npu”的通用化趋势,这可能反映项目对多NPU硬件支持的统一命名约定。
原始 PR · 作者 jasperjiaguo · 合并时间 2026-04-14 17:51
优化PCG Inductor路径下FP8模型的GPU内核开销,提升嵌入性能24%。
建议精读此PR,关注如何权衡自定义内核与Inductor融合的设计决策,以及通过本地配置检查避免全局副作用的实现方式。对于从事编译器优化或量化开发的工程师,此PR提供了实际性能调优案例。
修复DeepEP后端下共享专家融合与EPLB同时启用时的索引越界问题。
该PR值得精读,特别是对于从事MoE层优化和DeepEP后端开发的工程师。关注点:1. 共享专家融合与EPLB调度的冲突机制;2. 条件分支的设计权衡(可读性 vs 代码重复);3. 张量操作对性能的潜在影响。
修复PCG模式下注意力填充令牌计算问题,避免未定义行为和输出损坏。
该PR值得精读,特别是radix_attention.py和radix_linear_attention.py中的切片逻辑设计,展示了如何在保持原有batch对象身份的同时排除填充令牌。建议关注out_cache_loc的动态修改和恢复机制,以及讨论中关于字段命名和缓冲区初始化的技术权衡。
参与讨论