#22795 [NPU] Offloading docs update
作者 Hide-on-bushsh · 合并时间 2026-04-14 20:03
更新 Ascend NPU 卸载功能文档,明确参数支持状态和使用约束。
该 PR 为纯文档更新,无需精读代码。对于关注 NPU 平台卸载功能演进的开发者,可快速浏览以了解参数支持状态的变化;对于技术管理者,可作为 NPU 功能成熟度提升的佐证。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 Hide-on-bushsh · 合并时间 2026-04-14 20:03
更新 Ascend NPU 卸载功能文档,明确参数支持状态和使用约束。
该 PR 为纯文档更新,无需精读代码。对于关注 NPU 平台卸载功能演进的开发者,可快速浏览以了解参数支持状态的变化;对于技术管理者,可作为 NPU 功能成熟度提升的佐证。
作者 xdtbynd · 合并时间 2026-04-14 19:21
修复Ascend NPU文档中工具调用解析器选项的格式不一致问题。
该PR无需精读,仅是一个简单的文档格式修正。对于技术管理者,可完全忽略;对于工程师,除非负责文档维护,否则无需关注。唯一值得注意的点是review中提出的进一步格式优化建议未被采纳,但这不影响核心内容。
作者 amote-i · 合并时间 2026-04-14 19:21
更新Ascend NPU贡献指南中的过时描述和文件引用。
该PR为简单的文档更新,无需精读。对于NPU贡献者或文档维护者,可关注文件命名规范从“ascend”到“npu”的通用化趋势,这可能反映项目对多NPU硬件支持的统一命名约定。
作者 jasperjiaguo · 合并时间 2026-04-14 17:51
优化PCG Inductor路径下FP8模型的GPU内核开销,提升嵌入性能24%。
建议精读此PR,关注如何权衡自定义内核与Inductor融合的设计决策,以及通过本地配置检查避免全局副作用的实现方式。对于从事编译器优化或量化开发的工程师,此PR提供了实际性能调优案例。
作者 xutizhou · 合并时间 2026-04-14 17:33
修复DeepEP后端下共享专家融合与EPLB同时启用时的索引越界问题。
该PR值得精读,特别是对于从事MoE层优化和DeepEP后端开发的工程师。关注点:1. 共享专家融合与EPLB调度的冲突机制;2. 条件分支的设计权衡(可读性 vs 代码重复);3. 张量操作对性能的潜在影响。
作者 Chen-0210 · 合并时间 2026-04-14 16:08
修复PCG模式下注意力填充令牌计算问题,避免未定义行为和输出损坏。
该PR值得精读,特别是radix_attention.py和radix_linear_attention.py中的切片逻辑设计,展示了如何在保持原有batch对象身份的同时排除填充令牌。建议关注out_cache_loc的动态修改和恢复机制,以及讨论中关于字段命名和缓冲区初始化的技术权衡。
作者 michaelzhang-ai · 合并时间 2026-04-14 15:30
为AMD平台添加MiniMax-M2.7准确性及性能夜间CI测试,替换M2.5并修复导入bug。
建议工程师精读CI工作流变更逻辑,了解如何替换模型测试作业;关注minimax_m2.py的导入修复,作为关键bugfix的范例;测试文件可作为添加新模型测试的模板,适合学习SGLang的测试框架结构。
作者 xiaobochen-amd · 合并时间 2026-04-14 15:25
修复fp8 aiter预填充内核输出数据类型不匹配导致的模型输出损坏问题。
该PR值得快速浏览,了解fp8 kv-cache在AMD平台上的数据类型处理细节。关注点:1) 类型转换的触发条件(`if o.dtype != self.input_dtype`)是否足够健壮。2) 考虑HaiShaw关于“inbound”类型检查的建议是否需要在其他位置实施。
参与讨论