#38120 [Cohere] Enable Cohere Transcribe

原始 PR 作者 ekagra-ranjan 合并时间 2026-03-26 07:13 文件变更 6 提交数 6 评论 4 代码增减 +23 / -11

执行摘要

启用 Cohere Transcribe 模型，集成到 vLLM 支持语音识别。

PR body指出，这是对PR 35809的后续，目的是启用Cohere Transcribe模型（官方名称CohereAsrForConditionalGeneration），HF仓库为CohereLabs/cohere-transcribe-03-2026。动机是集成新模型，并利用它测试可变长度编码器输入的代码路径，此前vLLM仅支持填充长度的编码器输入，适用于Whisper但不适用于Cohere-Transcribe。

建议技术管理者和工程师精读此PR，以了解vLLM中模型集成的方法。关注注册表设计决策和测试策略，特别是如何使用标准归一器处理不同模型的输出归一化。注册表重复问题值得注意，建议在后续PR中修复以避免维护风险。

讨论亮点

review中，gemini-code-assist[bot] 在vllm/model_executor/models/registry.py第531行评论指出，注册表中添加了CohereAsrForConditionalGeneration的配置，但存在重复条目（例如CohereASRForConditionalGeneration），可能导致维护问题。建议重构为共享配置以提高可维护性。此评论未得到回复，PR已合并，表明可能被视为低优先级或将在未来处理。

实现拆解

实现包括六个文件变更：

文档模块：更新docs/models/supported_models.md，将模型添加到支持模型列表；
示例模块：更新examples/offline_inference/audio_language.py，使用正确模型名；
测试模块：更新tests/entrypoints/openai/correctness/test_transcription_api_correctness.py，添加模型到测试配置（但注释掉未启用），并引入标准英语归一器EnglishTextNormalizer用于评估；
测试模块：更新tests/models/registry.py，修改模型信息和路径；
模型执行模块：更新vllm/model_executor/models/cohere_asr.py，将类名从CohereASRForConditionalGeneration重命名为CohereAsrForConditionalGeneration；
模型执行模块：更新vllm/model_executor/models/registry.py，调整注册表条目以匹配新类名。

文件	模块	状态	重要度
`docs/models/supported_models.md`	documentation	modified	4.0
`examples/offline_inference/audio_language.py`	examples	modified	3.0
`tests/entrypoints/openai/correctness/test_transcription_api_correctness.py`	testing	modified	5.0
`tests/models/registry.py`	testing	modified	5.0
`vllm/model_executor/models/cohere_asr.py`	model_executor	modified	4.0
`vllm/model_executor/models/registry.py`	model_executor	modified	6.0

关键符号

CohereAsrForConditionalGeneration normalizer

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

注册表配置重复 设计

gemini-code-assist[bot] 指出在注册表中添加 CohereAsrForConditionalGeneration 配置时，存在重复条目（如 CohereASRForConditionalGeneration），可能导致维护问题。

结论：建议重构为共享配置以提高可维护性，但未在 PR 中解决。 · unresolved

风险与影响

风险包括：

注册表配置重复（如评论指出），可能导致未来变更不一致，增加维护成本；
测试中模型被注释掉未启用（TODO标明），可能延迟测试覆盖，增加潜在bug风险；
新模型集成可能引入兼容性问题，特别是可变长度编码器输入的处理逻辑，需确保与现有代码路径兼容；
模型类名重命名（从CohereASRForConditionalGeneration到CohereAsrForConditionalGeneration）可能影响依赖该类的其他代码。

影响：用户现在可以在vLLM中使用Cohere Transcribe模型进行语音识别，扩大了模型支持范围，提升系统功能。系统层面，增强了多模态处理能力，特别是音频编码器输入的处理，验证了可变长度编码器输入的代码路径。团队需要关注新模型的集成模式，以及注册表维护的最佳实践。测试变更引入了标准归一器，为未来模型测试提供了统一评估方法。

注册表配置重复测试未启用模型集成兼容性

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此PR启用了Cohere Transcribe模型，集成到vLLM以支持语音识别功能。通过更新模型注册表、文档和测试，验证了可变长度编码器输入的代码路径，但注册表存在配置重复风险，建议后续优化。

功能与动机

PR是PR 35809的后续，旨在启用Cohere Transcribe模型（官方名称CohereAsrForConditionalGeneration），HF仓库为CohereLabs/cohere-transcribe-03-2026。动机是集成新模型，并利用它测试可变长度编码器输入的代码路径，此前vLLM仅支持填充长度的编码器输入，适用于Whisper但不适用于Cohere-Transcribe。

实现拆解

文档模块：更新docs/models/supported_models.md，添加模型到支持列表。
示例模块：更新examples/offline_inference/audio_language.py，使用正确模型名。
测试模块：更新tests/entrypoints/openai/correctness/test_transcription_api_correctness.py，添加模型到测试配置（但注释掉未启用），并引入EnglishTextNormalizer作为标准归一器。代码示例：
```
normalizer = EnglishTextNormalizer(normalizer_tokenizer.english_spelling_normalizer)
```
模型执行模块：更新vllm/model_executor/models/cohere_asr.py，重命名类为CohereAsrForConditionalGeneration；更新vllm/model_executor/models/registry.py，调整注册表条目。

评论区精华

review中，gemini-code-assist[bot] 在vllm/model_executor/models/registry.py第531行评论：

"This adds an alias for the Cohere ASR model by duplicating the configuration tuple. This can lead to maintenance issues..."

建议重构为共享配置，但此评论未得到回复，PR已合并，表明风险被暂时搁置。

风险与影响

风险：

注册表配置重复：可能导致未来变更不一致，增加维护成本。
测试未启用：模型在测试中被注释掉，延迟了完整测试覆盖。
兼容性：新模型涉及可变长度编码器输入，需确保与现有系统兼容。

影响：

用户：可访问Cohere Transcribe模型进行语音识别，扩展应用场景。
系统：增强多模态处理能力，验证近期编码器输入改进。
团队：提供模型集成范例，但需关注注册表设计，避免技术债。

关联脉络

此PR与PR 35809直接相关，作为后续启用模型。在vLLM近期PR中，多模态处理（如PR 38018涉及多模态处理器）和模型集成是常见主题，表明项目正扩展音频和视觉模型支持，本PR是这一趋势的一部分。

#38120 [Cohere] Enable Cohere Transcribe

执行摘要

启用 Cohere Transcribe 模型，集成到 vLLM 支持语音识别。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论