Prhub

#39845 [Doc] Add Realtime Transcription section to supported_models.md

vllm-project/vllm · 作者 z1ying · 合并时间 2026-04-18 11:26

分析状态 已生成
文件变更 2提交数 2 · 评论 2
代码增减 +19 / -1
documentation v1 feature

执行摘要

在支持模型文档中添加实时转录模型章节并修复 API 文档中的错误链接。

根据PR描述,当前supported_models.md文档没有列出实时流式架构,尽管VoxtralRealtimeGenerationQwen3ASRRealtimeGeneration已在registry.py中注册并通过/v1/realtime端点提供服务。同时,openai_compatible_server.md中的Realtime API部分错误地链接到了批量转录章节(#transcription),而不是实时转录章节。此PR旨在填补文档空白并修正错误链接,确保用户能准确找到实时转录模型的使用信息。

此PR是一个简单的文档完善,无需深入技术分析。对于工程师,如果正在处理实时转录相关功能或需要参考模型支持列表,可以快速浏览supported_models.md中的新章节以获取关键信息。对于技术管理者,此变更展示了文档维护的重要性,但无需投入额外审查精力。

讨论亮点

review中讨论较少,主要确认了变更的正确性。

  • gemini-code-assist[bot] 评论:“此拉取请求在支持模型文档中添加了‘实时转录’部分,特别强调了VoxtralRealtimeGeneration和Qwen3ASRRealtimeGeneration。它还更新了实时API文档以链接到这个新部分。我没有反馈提供。”
  • DarkLight1337 评论:“抱歉错过了这个,LGTM”。
    讨论中没有出现争议点,变更被直接批准。

实现拆解

  1. 在支持模型文档中添加实时转录章节:修改docs/models/supported_odels.md,在现有“Transcription”部分之后新增“Realtime Transcription”章节。该章节以表格形式列出支持的架构(VoxtralRealtimeGenerationQwen3ASRRealtimeGeneration)、对应的HuggingFace模型示例,并添加了使用注意事项(如VoxtralRealtimeGeneration需要--tokenizer-mode mistralQwen3ASRRealtimeGeneration需要--hf-overrides)。
  2. 修正API文档中的交叉引用:修改docs/serving/openai_compatible_server.md,将Realtime API部分中“Only applicable to...”的链接从#transcription更正为#realtime-transcription,确保指向新添加的实时转录章节。
  3. 验证与提交:作者在PR描述中说明了验证步骤,包括检查模型在registry.py中的注册、确认--hf-overrides要求、验证链接解析正确性以及Markdown格式渲染。提交历史显示两个提交:第一个提交添加了文档变更,第二个提交是合并主分支的更新。
文件 模块 状态 重要度
docs/models/supported_models.md 模型文档 modified 2.98
docs/serving/openai_compatible_server.md 服务文档 modified 1.72

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

文档变更确认 documentation

reviewer 确认了 PR 的文档更新内容,没有提出技术问题。

结论:变更被批准,认为 LGTM(Looks Good To Me)。 · 已解决

风险与影响

此PR为纯文档更新,不涉及任何代码、配置或运行时逻辑的修改,因此不存在技术风险(如回归、性能、安全或兼容性问题)。唯一潜在风险是文档内容准确性,但作者已在PR描述中说明已验证模型注册和链接解析,且reviewer未提出异议,风险极低。

影响范围:仅影响文档,特别是supported_models.mdopenai_compatible_server.md两个文件。
影响程度

  • 对用户:正面影响,用户现在可以在官方文档中找到实时转录模型的支持列表和使用说明,避免了混淆和错误链接,提升了文档的完整性和可用性。
  • 对系统:无影响,不改变任何系统行为或性能。
  • 对团队:轻微影响,维护了文档与代码实现的一致性,减少了用户支持负担。
文档准确性风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

  • 一句话:在支持模型文档中添加实时转录模型章节并修复API文档中的错误链接。
  • 推荐动作:此PR是一个简单的文档完善,无需深入技术分析。对于工程师,如果正在处理实时转录相关功能或需要参考模型支持列表,可以快速浏览supported_models.md中的新章节以获取关键信息。对于技术管理者,此变更展示了文档维护的重要性,但无需投入额外审查精力。

功能与动机

根据PR描述,当前supported_models.md文档没有列出实时流式架构,尽管VoxtralRealtimeGenerationQwen3ASRRealtimeGeneration已在registry.py中注册并通过/v1/realtime端点提供服务。同时,openai_compatible_server.md中的Realtime API部分错误地链接到了批量转录章节(#transcription),而不是实时转录章节。此PR旨在填补文档空白并修正错误链接,确保用户能准确找到实时转录模型的使用信息。

实现拆解

  1. 在支持模型文档中添加实时转录章节:修改docs/models/supported_odels.md,在现有“Transcription”部分之后新增“Realtime Transcription”章节。该章节以表格形式列出支持的架构(VoxtralRealtimeGenerationQwen3ASRRealtimeGeneration)、对应的HuggingFace模型示例,并添加了使用注意事项(如VoxtralRealtimeGeneration需要--tokenizer-mode mistralQwen3ASRRealtimeGeneration需要--hf-overrides)。
  2. 修正API文档中的交叉引用:修改docs/serving/openai_compatible_server.md,将Realtime API部分中“Only applicable to...”的链接从#transcription更正为#realtime-transcription,确保指向新添加的实时转录章节。
  3. 验证与提交:作者在PR描述中说明了验证步骤,包括检查模型在registry.py中的注册、确认--hf-overrides要求、验证链接解析正确性以及Markdown格式渲染。提交历史显示两个提交:第一个提交添加了文档变更,第二个提交是合并主分支的更新。

关键文件:

  • docs/models/supported_models.md(模块 模型文档;类别 docs;类型 documentation): 这是核心变更文件,新增了实时转录模型的完整文档章节,包括架构列表、模型示例和使用注意事项,直接解决了PR的主要动机。
  • docs/serving/openai_compatible_server.md(模块 服务文档;类别 docs;类型 documentation): 次要变更文件,修正了Realtime API部分中的错误交叉引用,确保链接指向新添加的实时转录章节,提升了文档内部一致性。

关键符号:未识别

评论区精华

review中讨论较少,主要确认了变更的正确性。

  • gemini-code-assist[bot] 评论:“此拉取请求在支持模型文档中添加了‘实时转录’部分,特别强调了VoxtralRealtimeGeneration和Qwen3ASRRealtimeGeneration。它还更新了实时API文档以链接到这个新部分。我没有反馈提供。”
  • DarkLight1337 评论:“抱歉错过了这个,LGTM”。
    讨论中没有出现争议点,变更被直接批准。

  • 文档变更确认 (documentation): 变更被批准,认为LGTM(Looks Good To Me)。

风险与影响

  • 风险:此PR为纯文档更新,不涉及任何代码、配置或运行时逻辑的修改,因此不存在技术风险(如回归、性能、安全或兼容性问题)。唯一潜在风险是文档内容准确性,但作者已在PR描述中说明已验证模型注册和链接解析,且reviewer未提出异议,风险极低。
  • 影响:影响范围:仅影响文档,特别是supported_models.mdopenai_compatible_server.md两个文件。
    影响程度

  • 对用户:正面影响,用户现在可以在官方文档中找到实时转录模型的支持列表和使用说明,避免了混淆和错误链接,提升了文档的完整性和可用性。

  • 对系统:无影响,不改变任何系统行为或性能。
  • 对团队:轻微影响,维护了文档与代码实现的一致性,减少了用户支持负担。
  • 风险标记:文档准确性风险

关联脉络

  • PR #38405 [Frontend] Add multimodal support to /inference/v1/generate endpoint: 同属文档更新类别,都涉及完善API端点(如/v1/realtime)的文档支持,反映了vLLM在多模态和实时功能上的文档演进。
  • PR #39291 feat: Add LoRA support for Gemma4ForConditionalGeneration: 都涉及模型支持文档的更新,PR#39291为Gemma4模型添加LoRA支持说明,而本PR为实时转录模型添加支持说明,共同丰富了supported_models.md的内容。

参与讨论