#23331 [BugFix] Resolve adaptive speculative decoding conflicts for Qwen3.5 (hybrid GDN)
原始 PR · 作者 EanWang211123 · 合并时间 2026-05-20 06:09
修复 Qwen3.5 混合 GDN 模型上自适应推测解码的三个冲突问题
建议所有涉及推测解码、混合注意力路由的开发者精读。重点关注: - `_is_full_attn` 的 isinstance 优先设计,它提供比 ID 列表更健壮的分发。 - `effective_max_speculative_num_draft_tokens` 的解耦方式,可作为未来自适应参数分配的模板。 - Review 讨论中关于“保留 API 兼容 vs 全面重构”的权衡决策。 - 重构后的 `adaptive_spec_params.py` 模块划分(候选步骤解析与配置加载分离)提升了可测试性。
参与讨论