#38928 [Bugfix][Perf] Indexer upcast WK to BF16 for fusion
作者 benchislett · 合并时间 2026-04-16 04:39
向上转换DeepSeek索引器WK权重至BF16以保持融合,提升FP8量化模型性能。
建议核心开发者精读此PR,重点关注`_try_load_fp8_indexer_wk`中FP8反量化与缓冲区同步的实现细节,以及移除`is_fp4_ckpt`后统一融合路径的设计权衡,这对理解vLLM中量化与性能优化交互有较高价值。
参与讨论