#39773 [Model Runner V2] Disable piecewise cudagraph mode fallback for eagle draft decodes
作者 TheEpicDolphin · 合并时间 2026-04-15 08:47
修复Eagle推测解码中CUDA图模式问题,防止FlashInfer后端读取越界元数据。
该PR值得精读,特别是对于关注CUDA图优化和推测解码的工程师。重点关注`init_cudagraph_manager`方法中的模式选择逻辑,以及`_prepare_eagle_inputs_kernel`中的缓冲区填充实现,这些设计决策揭示了CUDA图模式与注意力后端元数据之间的微妙依赖关系。
参与讨论