#22717 [codex] Add flashinfer TRTLLM backend for diffusion NVFP4
作者 BBuf · 合并时间 2026-04-18 09:06
为扩散模型NVFP4量化添加FlashInfer TRTLLM后端,提升性能并作为稳定性后备。
该PR值得精读,尤其是`modelopt_quant.py`中的权重处理逻辑和`cuda.py`中的后端选择机制,它们展示了如何在量化核心路径中集成第三方高性能kernel并保持向后兼容。关注FlashInfer shuffle操作的设计决策,以及环境变量缓存清理(cache_clear)的运用,这些对类似功能扩展有借鉴价值。