Prhub

#26774 [NPU][Docs] Kimi-K2.5 best practice

原始 PR 作者 litmei 合并时间 2026-06-02 13:14 文件变更 2 提交数 5 评论 1 代码增减 +234 / -4

执行摘要

为 Kimi-K2.5-w4a8 新增 Ascend NPU 最佳实践文档

Add best practice for Kimi-K2.5-w4a8 on NPU platform.

值得精读,特别是需要在 NPU 上部署 Kimi K2.5 的用户。重点关注低延迟与高吞吐配置的差异,并注意表格与命令的卡数一致性。

讨论亮点

Gemini Code Assist 机器人指出表格中卡数(8 卡)与 Optimal Configuration 命令中 --tp-size 16 不一致,并建议移除冗余的 transformers 安装命令。这些反馈未在后续 commit 中体现,PR 已合并但问题仍可能存在。

实现拆解

  1. 新增 Kimi 系列最佳实践章节:在 docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_best_practice.mdx 末尾添加 "Kimi Series Models" 小节,包含低延迟和高吞吐两张配置表格,列出模型、硬件、卡数、部署模式、数据集、TPOT、量化方式等参数,并提供指向对应 Optimal Configuration 锚点的链接。
  2. 修复占位符格式:在 docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_kimi_k2.5_examples.mdx 中将 Router 命令中的占位符从 'your prefill ip1' 等单引号格式改为 <your_prefill_ip1> 尖括号格式,增强可读性和准确性。
  3. 冲突合并与格式修复:通过合并 main 分支解决冲突,并通过 commit "fix lint" 修复文档格式问题。
文件 模块 状态 重要度
docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_best_practice.mdx NPU 最佳实践 modified 5.42
docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_kimi_k2.5_examples.mdx NPU 示例 modified 2.92

关键源码片段

docs_new/docs/hardware-platforms/ascend-npus/ascend_npu_kimi_k2.5_examples.mdx documentation

修复 Router 命令中的占位符格式,提高准确性和可读性

# 修改后的 Router 启动命令,使用尖括号占位符替换原单引号格式
python -m sglang_router.launch_router \
  --pd-disaggregation \
  --policy cache_aware \
  --prefill http://<your_prefill_ip1>:8000 8998 \
  --prefill http://<your_prefill_ip2>:8000 8999 \
  --prefill http://<your_prefill_ip3>:8000 9000 \
  --decode http://<your_decode_ip1>:8001 \
  --host 127.0.0.1 \
  --port 6688
# 注意:替换尖括号内的 IP 地址为实际 IP

评论区精华

配置不一致及冗余建议 正确性

Gemini Code Assist 指出表格中卡数为 8,但部署命令使用 --tp-size 16,存在不一致;同时建议移除多余的 transformers 安装命令和改善占位符格式。

结论:PR 已合并,但表格卡片数问题未修复,可能需后续跟进。 · unresolved

风险与影响

文档中表格的卡片数(8)与实际部署命令(--tp-size 16)不一致,可能导致用户误配置。此外,缺少多节点部署的详细说明可能增加调试成本。

对用户:提供官方推荐配置,降低 Kimi-K2.5-w4a8 在 Ascend NPU 上的部署门槛。对系统:无运行时影响。对团队:需保持文档与实际参数一致性。

文档配置不一致 用户部署失败风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论