#5610 [model] chore: Fix Qwen3-235B precision issues on NPU
作者 autbuster · 合并时间 2026-03-16 23:21
修复 Qwen3-235B 模型在 NPU 上的精度问题,并提供训练脚本。
对于在 NPU 上部署大模型的工程师,此 PR 值得精读,关注 `vllm_async_server.py` 中 sleep_level 的处理方式,它揭示了 NPU 与 GPU 在引擎休眠行为上的差异;同时,训练脚本可作为配置模板,但需注意 review 中提到的语法陷阱。
参与讨论