执行摘要
为 Qwen3.5 添加 H100 FP8 下的 --enable-symm-mem 支持
在 H100 FP8 部署中,启用 NCCL 对称内存可获得最佳性能。参考了 InferenceX 仓库的相关 PR。
建议合并,属于有益的文档改进。无需深度审查。
讨论亮点
无 review 讨论。PR 由作者发起,合并者直接批准。
在 H100 FP8 部署中,启用 NCCL 对称内存可获得最佳性能。参考了 InferenceX 仓库的相关 PR。
建议合并,属于有益的文档改进。无需深度审查。
无 review 讨论。PR 由作者发起,合并者直接批准。
docs_new/src/snippets/autoregressive/qwen35-deployment.jsx 文件中,在 // Chunked prefill tuning 区块之前插入新的条件块,当硬件为 h100、量化类型为 fp8 且 TP > 1 时,向命令行追加 --enable-symm-mem 参数。docs_new/cookbook/autoregressive/Qwen/Qwen3.5.mdx 的配置技巧小节中新增一条针对 H100 FP8 的说明,建议添加 --enable-symm-mem。| 文件 | 模块 | 状态 | 重要度 |
|---|---|---|---|
docs_new/src/snippets/autoregressive/qwen35-deployment.jsx |
部署片段 | modified | 5.13 |
docs_new/cookbook/autoregressive/Qwen/Qwen3.5.mdx |
文档 | modified | 2.0 |
分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。
当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。
风险极低:变更仅涉及文档和交互式配置片段,不影响运行时逻辑。不会引入回归或安全问题。
影响范围仅限于使用 H100 FP8 运行 Qwen3.5 的用户,通过文档获取优化建议。对系统整体无影响。
当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。
参与讨论