Prhub

#37430 [Docs] Add docs for context extension using the yarn method

原始 PR 作者 labAxiaoming 合并时间 2026-04-24 23:26 文件变更 1 提交数 6 评论 20 代码增减 +70 / -0

执行摘要

为 context extension 添加 YaRN 方法文档

用户反馈 --rope-scaling 参数已弃用,需通过 --hf-overrides 使用 rope_parameters。关联 issue #37886 提出文档需求。

该 PR 为纯文档更新,内容简洁实用,值得作为 vLLM 特性文档的参考样例。

讨论亮点

核心讨论包括:

  • gemini-code-assist[bot] 建议在文档开头添加 --rope-scaling 弃用说明,已被采纳。
  • hmellor 指出 mkdocs 应使用 !!! note 而非 > Note,已修正。
  • DarkLight1337 建议参数说明引用 HF 官方文档,并明确 max_model_len 是 vLLM 专属参数。
  • DarkLight1337 提议简化标题,去掉「with vLLM」。

实现拆解

  1. 在 docs/features/ 下创建 context_extension.md,包含弃用 note。
  2. 添加离线示例,引用 examples/offline_inference/context_extension.py。
  3. 添加 OpenAI 在线服务示例,包含服务端命令行和客户端 Python 代码。
  4. 解释关键参数,区分通用 HF 参数(rope_type、factor 等)和 vLLM 专属参数(max_model_len)。
文件 模块 状态 重要度
docs/features/context_extension.md 文档 added 4.33

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

添加 --rope-scaling 弃用提示 documentation

gemini-code-assist[bot] 建议在文档开头加入 --rope-scaling 废弃提示,因为 PR 描述中有但文档无。

结论:已采纳,添加了 !!! note 块。 · 已解决

MkDocs 语法正确性 documentation

hmellor 指出 blockquote 语法不是 mkdocs 标准,应使用 !!! note。

结论:已修正为 !!! note。 · 已解决

参数说明应引用 HF 文档 documentation

DarkLight1337 和 hmellor 建议参数说明链接到 Hugging Face 官方文档,因为参数依赖 rope_type。

结论:已添加引用链接。 · 已解决

明确 max_model_len 是 vLLM 专属参数 documentation

DarkLight1337 指出 max_model_len 不在 Transformers 文档中,属于 vLLM 特有,应突出说明。

结论:已添加注释将其标记为 vLLM specific。 · 已解决

风险与影响

文档变更无技术风险,但参数描述若不准确可能误导用户。已通过 review 确保正确引用 HF 文档并区分 vLLM 专属参数。

帮助使用 Qwen 等模型的用户正确迁移到新的 --hf-overrides 配置,降低因参数弃用导致的困惑。影响范围主要为 context extension 文档读者。

关联 Issue

#37886 [Doc]: The --rope-scaling parameter has taken effect in vLLM supports YaRN

完整报告

参与讨论