#7367 [Optimization][DeepSeekV3.2]Reducing slot_mapping compute frequency from twice per layer to a single pre-processing step.
作者 ShaneGZhu · 合并时间 2026-04-16 19:54
将 DeepSeekV3.2 模型 slot_mapping 计算从每层两次优化为单次预处理,提升推理性能约 8-14%。
该 PR 值得精读,特别是设计决策将计算从模型层移至运行器层,展示了性能优化与代码抽象的权衡。关注 `_compute_position_ids_and_slot_mapping` 方法的实现细节,以及 review 中讨论的未解决点(如 GlmMoeDsa 兼容性),以便在其他优化中借鉴。
参与讨论