#21190 [Whisper] Enable CUDA graph support and timestamp for whisper model
原始 PR · 作者 JustinTong0323 · 合并时间 2026-03-29 01:46
为Whisper模型启用CUDA图支持和时间戳功能,实现36%吞吐量提升。
该PR值得精读,特别是对于理解如何在编码器-解码器模型中集成RadixAttention以启用CUDA图支持,以及时间戳功能的实现细节。建议关注`whisper.py`中的交叉注意力替换和`cuda_graph_runner.py`中的捕获修复,这些设计决策对类似优化有参考价值。
参与讨论