执行摘要
为 Qwen3-ASR 模型添加基于块的流式语音识别,通过 SSE 实时输出部分转录。
PR动机源于Issue #22025,旨在减少完整音频处理前的等待时间,实现实时转录。PR body指出:'reducing time-to-first-text compared to waiting for the full audio to be processed',并参考Qwen3-ASR论文的流式算法。
建议技术管理者和工程师精读此PR,关注 StreamingASRState 的设计和适配器扩展模式,这些决策为流式处理提供了可扩展框架。同时,注意跨块状态不共享的架构选择,这限制了性能优化但保持了最小变更原则。
Review中JustinTong0323指出了多个问题:Critical级别的StopAsyncIteration逃逸、提示模板重复和输入验证缺失,SammLSH均修复;Important级别如前缀文本源错误(使用full_transcript而非confirmed_text)、CJK语言回退无效(str.split()对中文无效)、语言默认值None等,部分修复,CJK问题记录为已知限制;设计讨论包括API参数暴露(用户能否覆盖配置)和代码重构(硬编码if语句),SammLSH计划作为后续改进。最终所有Critical和Important问题解决,PR获批准。
参与讨论