#37975 [Model] Extract GatedDeltaNetAttention into shared layer for Qwen3Next and Qwen3.5

vllm-project/vllm · 作者 wxsIcey · 合并时间 2026-03-27 14:13

分析状态已生成

文件变更 3提交数 12 · 评论 38

代码增减 +1053 / -1126

refactor model qwen

执行摘要

将 GatedDeltaNetAttention 提取为共享层，统一 Qwen3Next 和 Qwen3.5 实现。

作者在Issue评论中指出，由于XPU和NPU平台不支持key-value不连续操作，需要重写GatedDeltaNetAttention层，因此进行重构以支持跨平台兼容性和代码复用。具体表述为：'Since key-value in-contiguous are not supported in xpu and npu, the operators of the GatedDeltaNetAttention layer must be rewritten in xpu and npu'。

该PR值得精读，因为它展示了如何参数化共享层以处理模型差异，并涉及跨平台兼容性设计。建议关注fix_query_key_value_ordering的修复、共享层参数化设计，以及review中关于forward_native的讨论。

讨论亮点

review中重点讨论了：1) gemini-code-assist[bot]发现的critical bug，在fix_query_key_value_ordering中形状推导错误（mixed_qkvz误用为mixed_ba），已修复；2) jikunshang关于forward_native命名和平台兼容性的讨论，认为应为torch-native实现，但决定暂时保留等待IR PR；3) claude[bot]指出gdn_in_proj函数是未使用的dead code，作者确认已移除；4) ZJY0516要求测试qwen3.5、qwen3 next和lora，以确保兼容性，作者进行了测试并确认通过。

实现拆解

新增文件gdn_linear_attn.py包含参数化的GatedDeltaNetAttention类，处理GQA布局和LoRA兼容性；修改qwen3_5.py和qwen3_next.py，删除原Qwen3NextGatedDeltaNet和Qwen3_5GatedDeltaNet类，转而导入并使用共享层。关键改动包括将GDN逻辑集中化，并通过配置参数区分模型差异。

文件	模块	状态	重要度
`vllm/model_executor/layers/mamba/gdn_linear_attn.py`	layers/mamba	added	8.0
`vllm/model_executor/models/qwen3_5.py`	models	modified	5.0
`vllm/model_executor/models/qwen3_next.py`	models	modified	5.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

fix_query_key_value_ordering forward_native gdn_attention_core

评论区精华

Critical bug in fix_query_key_value_ordering 正确性

gemini-code-assist[bot] 指出形状推导错误：new_tensor_shape_ba 错误地从 mixed_qkvz.size() 推导，而非 mixed_ba.size()，可能导致运行时错误。

结论：作者修复了错误，采纳了建议的代码修改。 · 已解决

Naming and platform compatibility for forward_native 设计

jikunshang 指出 forward_native 应使用 torch-native 实现而非 Triton，以支持 CPU 平台；ZJY0516 认为不需 torch-native 实现。

结论：决定暂时保留当前实现，等待未来 IR PR 重构，命名问题未完全解决。 · unresolved

Dead code gdn_in_proj removal style

claude[bot] 指出 gdn_in_proj 函数调用未定义的 _forward_in_proj 方法，是未使用的死代码。

结论：作者确认已移除该函数，解决了代码清理问题。 · 已解决

风险与影响

技术风险包括：1) 回归风险：新共享层可能引入未覆盖的bug，需确保与旧实现行为一致；2) 平台兼容性：XPU/NPU的键值不连续支持仍待验证，可能影响性能或正确性；3) 代码清理风险：review中发现的dead code（gdn_in_proj）虽已移除，但其他潜在未清理代码可能残留；4) 性能影响：Triton内核使用可能影响CPU平台，需验证跨平台性能。

影响范围：用户使用Qwen3Next和Qwen3.5模型时，底层实现更统一，可能提升跨平台支持；系统层面，减少代码冗余约2000行，便于维护和扩展新模型变体；团队需更新测试用例，确保模型准确性，并关注平台特异性测试。影响程度中等，涉及核心注意力层但未改变用户接口。

核心路径变更潜在 bug 修复平台兼容性风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR将GatedDeltaNetAttention层从qwen3_next.py提取到新文件gdn_linear_attn.py，统一Qwen3Next和Qwen3.5模型的实现，旨在支持XPU/NPU平台并减少代码重复。这是一个重要的重构，修复了潜在bug并涉及跨平台兼容性设计，值得工程师关注其参数化共享层实现。

功能与动机

为什么做：作者在Issue评论中解释，XPU和NPU平台不支持key-value不连续操作，需要重写GatedDeltaNetAttention层。因此，通过重构提取共享层，以支持跨平台兼容性和代码复用。具体动机引用：'Since key-value in-contiguous are not supported in xpu and npu, the operators of the GatedDeltaNetAttention layer must be rewritten in xpu and npu'。

实现拆解

做了什么：按模块拆解关键改动：

新增模块：vllm/model_executor/layers/mamba/gdn_linear_attn.py – 包含参数化的GatedDeltaNetAttention类，处理GQA布局、LoRA兼容性，并集成FlashInfer和Triton内核。
模型文件修改：
- qwen3_5.py – 删除原Qwen3_5GatedDeltaNet类，导入并使用共享层，减少约151行代码。
- qwen3_next.py – 删除原Qwen3NextGatedDeltaNet类，导入共享层，减少约975行代码。

关键代码逻辑示例（来自review）：fix_query_key_value_ordering方法修复后：

new_tensor_shape_ba = mixed_ba.size()[:-1] + (
    self.num_k_heads // self.tp_size,
    2 * self.num_v_heads // self.num_k_heads,
)

评论区精华

讨论了什么：提炼review中的核心交锋：

Critical bug修复：gemini-code-assist[bot]发现fix_query_key_value_ordering中形状推导错误，作者及时修复。引用：'new_tensor_shape_ba is incorrectly derived from mixed_qkvz.size() instead of mixed_ba.size()'。
平台兼容性设计：jikunshang讨论forward_native命名，认为应为torch-native实现以支持CPU平台。结论：暂保留，等待未来IR PR。引用：'forward_native should be a torch-native impl'。
代码清理：claude[bot]指出gdn_in_proj是死代码，作者确认已移除。
测试要求：ZJY0516要求测试qwen3.5、qwen3 next和lora，作者进行了测试并报告通过。

风险与影响

风险：具体技术风险包括：

回归风险：新共享层可能引入未覆盖bug，需确保与旧实现行为一致，特别是在注意力计算路径。
平台兼容性：XPU/NPU的键值不连续支持仍需验证，可能影响推理正确性或性能。
性能影响：Triton内核使用可能不适用于CPU平台，需监控跨平台性能。

影响：

对用户：使用Qwen3Next/Qwen3.5模型时，底层实现更统一，可能提升跨平台支持，但用户无感知接口变化。
对系统：代码冗余减少约2000行，便于维护和扩展新模型变体。
对团队：需加强测试覆盖，确保模型准确性，并关注平台特异性集成。

关联脉络

与历史PR的关系：本PR是Qwen模型系列重构的一部分，与近期PR如#38155（添加Qwen3.5模型测试）相关联，共同推进模型兼容性和测试完善。更大的功能演进方向是支持多平台（如XPU/NPU）和代码模块化，减少模型特定实现。

支持 Prhub ♥

#37975 [Model] Extract GatedDeltaNetAttention into shared layer for Qwen3Next and Qwen3.5

执行摘要

将 GatedDeltaNetAttention 提取为共享层，统一 Qwen3Next 和 Qwen3.5 实现。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论