#37565 [Bugfix] Disable --calculate-kv-scales for hybrid GDN/Mamba+Attention…
作者 Young-Leo · 合并时间 2026-03-21 02:28
修复混合模型使用 --calculate-kv-scales 时导致 FP8 KV 缓存比例损坏的 bug。
建议阅读此 PR,以了解混合模型与量化校准的交互问题,以及如何安全地处理弃用选项。重点关注 `HybridAttentionMambaModelConfig.verify_and_update_config()` 方法的设计决策,包括警告日志和配置修改的逻辑。
参与讨论