Prhub

#40034 [Doc] Add Qwen3 AWQ models to documentation

原始 PR 作者 YM2132 合并时间 2026-04-21 21:37 文件变更 1 提交数 4 评论 2 代码增减 +1 / -1

执行摘要

更新批次不变性文档,添加两个已验证的 Qwen3 AWQ 模型。

根据 PR body 和关联 Issue #27433 的讨论,批次不变性功能需要持续更新已验证的模型列表以反映实际测试覆盖。作者在先前 PR #38670 中已为 Qwen3 AWQ 模型添加了批次不变性支持,本 PR 的目的是将这两个已通过本地测试的模型(Qwen/Qwen3-4B-AWQ 和 Qwen/Qwen3-8B-AWQ)同步更新到官方文档中,确保文档的准确性和时效性。

对于大多数工程师,无需精读此 PR。它仅是一个简单的文档更新。值得关注的点在于:它反映了 vLLM 项目对批次不变性功能测试覆盖的持续完善,以及文档与代码实现保持同步的实践。

讨论亮点

Review 过程非常简洁,没有技术争议。gemini-code-assist[bot] 确认了变更内容,yewentao256 直接批准并感谢贡献。讨论重点在于确认文档更新的正确性和必要性,而非实现细节。

实现拆解

  1. 修改文档文件:更新 docs/features/batch_invariance.md 文件,在“已验证模型”部分的 Qwen3 (Dense) 列表中,将原有的 Qwen/Qwen3-1.7B, Qwen/Qwen3-8B 扩展为 Qwen/Qwen3-1.7B, Qwen/Qwen3-8B, Qwen/Qwen3-4B-AWQ, Qwen/Qwen3-8B-AWQ
  2. 验证与合并:作者在本地使用 VLLM_TEST_MODEL 环境变量运行了 tests/v1/determinism/test_batch_invariance.py 测试,确认两个新增模型均通过所有批次不变性测试。随后通过多次合并 main 分支更新,最终由 mergify[bot] 完成合并。
文件 模块 状态 重要度
docs/features/batch_invariance.md 功能文档 modified 1.72

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

文档更新确认 documentation

gemini-code-assist[bot] 确认了 PR 内容为文档更新,yewentao256 直接批准。

结论:变更被接受,无需修改。 · 已解决

风险与影响

风险极低。此 PR 仅修改了 Markdown 文档文件,不涉及任何运行时代码、配置或数据结构的变更。唯一的潜在风险是文档内容与实际情况不符,但作者已通过本地测试验证了新增模型的支持,且变更内容仅为列表扩展,逻辑简单,出错可能性很小。

影响范围:仅影响文档使用者。影响程度:低。用户现在可以在官方文档中看到 Qwen3 AWQ 模型也支持批次不变性功能,这有助于用户在选择模型时获得更准确的信息。对系统运行、性能或安全性无任何影响。

文档同步延迟

关联 Issue

#27433 [Feature]: Batch Invariant Feature and Performance Optimization

完整报告

参与讨论