#22594 diffusion: fix layerwise offload for ModelOpt quantized DiTs
作者 BBuf · 合并时间 2026-04-13 08:01
修复 ModelOpt FP8 量化 DiTs 的 layerwise offload,确保权重布局对齐和步幅保留。
建议工程师精读此 PR,特别是 `layerwise_offload.py` 中的步幅保留和对齐实现,这是处理量化权重布局与内核要求的关键设计决策。同时,关注 review 中的性能优化点,了解如何高效管理 GPU-CPU 数据传输。
参与讨论