#40060 Fix TURBOQUANT backend selection in cuda.py
作者 mgoin · 合并时间 2026-04-17 22:31
修复 TURBOQUANT 注意力后端选择逻辑,移除硬编码旁路并加入优先级列表。
建议仔细阅读 `vllm/platforms/cuda.py` 中的 `_get_backend_priorities` 和 `get_valid_backends` 方法,关注 TURBOQUANT 优先级调整和硬编码移除的设计决策。同时,注意 review 中提到的未解决风险,可能需要后续 PR 来优化验证逻辑。