#7210 [BugFix] Fix batch_size derivation and relax shape checks in SM90 flash_mask_attn
作者 xiaoxiaohehe001 · 合并时间 2026-04-09 11:05
修复SM90 flash_mask_attn算子batch_size推导错误,放宽shape校验以兼容预分配输入。
该PR值得精读,重点关注:1. Python侧切片方案的设计权衡,以及是否应将修复逻辑移至CUDA侧。2. shape校验放宽的边界条件处理,是否应添加下界校验以避免越界风险。3. 预分配场景下的测试覆盖缺失问题。