#44253 [Bug Fix][Model Runner V2][Spec Decode] Warmup & capture with different attention states for speculator prefill
原始 PR · 作者 TheEpicDolphin · 合并时间 2026-06-04 04:32
分离 speculator prefill CUDA graph 的 attention state
强烈建议精读本 PR,尤其是 `cudagraph_utils.py` 中的设计。它清晰地展示了如何处理 CUDA graph capture 中的 lazy initialization 问题,是一种可复用的模式。其他需要实现自定义 `CudaGraphManager` 的开发者应参考此模式。