#22361 [Whisper] Batch encoder forward for concurrent prefill requests
原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-12 14:15
Whisper模型编码器从串行改为批量执行,提升高并发预填充吞吐量。
该PR值得精读,尤其是对于关注模型推理性能优化的工程师。关键设计决策包括:1) 识别编码器为瓶颈并量化其开销;2) 利用编码器天然的批次兼容性实现无交互的批量执行;3) 输出重塑策略以适配下游KV缓存。建议结合基准测试数据理解不同硬件平台上的收益差异。
参与讨论