执行摘要
修复 Qwen3-235B 模型在 NPU 上的精度问题,并提供训练脚本。
根据 PR 标题和 body 的表述“Fix Qwen3-235B precision issues on NPU”,以及 Issue 评论中作者 autbuster 的回复“Yes, in addition to fixing the bug, I have also completed the adaptation and migration of the Qwen3-235B model to NPUs.”,动机是修复模型在 NPU 上的精度缺陷,并完成硬件适配工作。
对于在 NPU 上部署大模型的工程师,此 PR 值得精读,关注 vllm_async_server.py 中 sleep_level 的处理方式,它揭示了 NPU 与 GPU 在引擎休眠行为上的差异;同时,训练脚本可作为配置模板,但需注意 review 中提到的语法陷阱。
Review 中的核心讨论包括:gemini-code-assist[bot] 指出训练脚本中存在两个关键语法错误(Hydra 语法 ++ 和参数放置错误),并建议修复,作者随后应用了这些建议。wucong25 询问了 enable_expert_parallel 参数的意义和必要性,以及是否可以将 sleep_level 逻辑与 lora_as_adapter 合并,但未得到明确结论。glowwormX 在 Issue 评论中询问 sleep_level 设为 1 的原因,作者解释 NPU 不支持 level 2 且未观察到资源消耗增加。决策结论是脚本错误被修复,sleep_level 调整被采纳,但 enable_expert_parallel 的讨论未完全解决。
参与讨论