执行摘要
预计算 LTX2 扰动状态,缓存复用掩码
根据 PR body,该变更是早期 LTX2.3 两阶段优化尝试的无损部分,目标是在扩展到更多扰动配置时降低 CPU/Python 开销,减少每个 transformer 块内重复的掩码构建逻辑。
该 PR 设计简洁,变更聚焦,适合作为无损性能优化的参考案例。阅读者可以重点理解 _ltx2_build_batched_perturbation_states 函数中缓存复用掩码的设计。不过,当前缺乏针对性测试,建议后续补充扰动场景的性能/压力测试。
自动 code review 由 gemini-code-assist[bot] 提出多条建议,包括移除 .contiguous() 冗余调用、在条件判断后延迟 rms_norm 和 scale_shift 计算以避免不必要的核启动。然而,这些建议针对的是 PR 早期版本中包含 Triton scale-shift kernel 和 residual 重调度的代码。在最终提交 92ee951a 中,由于两阶段优化方案在一致性测试中出现数值漂移,PR 作者移除了所有非 bit-exact 优化,这些建议也随之过时。最终,本 PR 仅保留了扰动状态预计算这一干净的无损部分。
参与讨论