#36976 [Bugfix][LoRA] Fix Qwen35 LoRA

原始 PR 作者 jeejeelee 合并时间 2026-03-20 11:09 文件变更 5 提交数 12 评论 9 代码增减 +257 / -46

执行摘要

修复 Qwen3.5 模型的 LoRA 适配器支持，解决 IndexError 问题。

根据review评论，musab-mk确认此PR修复了LoRA适配器在Qwen/Qwen3.5-397B-A17B-FP8模型上导致的IndexError，标题和标签也表明这是一个针对Qwen3.5的bug修复。

该PR值得精读，特别是模型层LoRA兼容性设计决策，如分离in_proj_qkvz层以处理GDN结构，这为其他支持LoRA的模型提供参考。同时关注gemini-code-assist[bot]提出的packed_modules_mapping修复是否已正确实施。

讨论亮点

gemini-code-assist[bot]指出critical问题：Qwen3_5ForConditionalGeneration的packed_modules_mapping未正确定义，可能导致LoRA在其他模块（如qkv_proj）上失效，建议从Qwen3NextForCausalLM继承映射。此问题在PR合并前应已解决，但材料未显示具体修复。musab-mk测试确认修复有效，DarkLight1337批准合并。

实现拆解

实现主要包括三个部分：

1) 在qwen3_5.py中修改Qwen3_5GatedDeltaNet类，当LoRA启用时（vllm_config.lora_config非空）使用MergedColumnParallelLinear和ColumnParallelLinear分离in_proj_qkv和in_proj_z，并在forward方法中添加条件分支处理；
2) 在qwen3_next.py中调整Qwen3NextGatedDeltaNet的__init__方法，新增create_in_proj_qkvz参数以支持子类自定义；
3) 添加测试文件test_qwen35_densemoel_lora.py并更新CI配置lora.yaml和conftest.py以集成新测试。

文件	模块	状态	重要度
`vllm/model_executor/models/qwen3_5.py`	model_executor/models	modified	7.0
`vllm/model_executor/models/qwen3_next.py`	model_executor/models	modified	5.0
`tests/lora/test_qwen35_densemoel_lora.py`	tests/lora	added	4.0

关键符号

Qwen3_5GatedDeltaNet.__init__ Qwen3_5GatedDeltaNet.forward Qwen3NextGatedDeltaNet.__init__

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

packed_modules_mapping 初始化问题 设计

gemini-code-assist[bot] 指出 Qwen3_5ForConditionalGeneration 的 packed_modules_mapping 未正确定义，继承空字典，可能导致 LoRA 在 qkv_proj 等模块失效

结论：PR 合并前应已解决，但材料未显示具体修复代码 · 已解决

测试确认修复有效性 正确性

musab-mk 测试并确认修复了 IndexError in _capture_cudagraphs for LoRA adapter on Qwen/Qwen3.5-397B-A17B-FP8

结论：修复有效，PR 被批准合并 · confirmed

风险与影响

风险包括：

1) 核心模型文件qwen3_5.py变更可能引入回归，影响Qwen3.5的非LoRA路径性能或正确性；
2) packed_modules_mapping问题若未完全解决，LoRA支持可能仍不完整，导致其他模块失效；
3) 新增测试仅覆盖密集模型（Qwen3.5-4B），未测试更大规模或混合专家模型，可能存在覆盖不足。

直接影响使用Qwen3.5模型和LoRA适配器的用户，修复了一个导致CUDA图捕获崩溃的bug，提升模型可用性。对系统整体影响较小，仅限于Qwen3.5模型的LoRA功能。团队需关注类似模型LoRA支持的兼容性设计。

核心模型变更 LoRA 兼容性风险测试覆盖有限

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：修复Qwen3.5模型的LoRA适配器支持，解决IndexError问题。
推荐动作：该PR值得精读，特别是模型层LoRA兼容性设计决策，如分离in_proj_qkvz层以处理GDN结构，这为其他支持LoRA的模型提供参考。同时关注gemini-code-assist[bot]提出的packed_modules_mapping修复是否已正确实施。

功能与动机

根据review评论，musab-mk确认此PR修复了LoRA适配器在Qwen/Qwen3.5-397B-A17B-FP8模型上导致的IndexError，标题和标签也表明这是一个针对Qwen3.5的bug修复。

实现拆解

实现主要包括三个部分：

关键文件：

vllm/model_executor/models/qwen3_5.py（模块 model_executor/models）: 核心模型修改，实现LoRA兼容的in_proj分离，处理Gated Delta Network结构
vllm/model_executor/models/qwen3_next.py（模块 model_executor/models）: 基础类修改，支持create_in_proj_qkvz参数，为LoRA路径提供灵活性
tests/lora/test_qwen35_densemoel_lora.py（模块 tests/lora）: 新增测试文件，验证Qwen3.5密集模型LoRA修复的正确性和TP4场景

关键符号：Qwen3_5GatedDeltaNet.init, Qwen3_5GatedDeltaNet.forward, Qwen3NextGatedDeltaNet.init

评论区精华

packed_modules_mapping初始化问题 (design): PR合并前应已解决，但材料未显示具体修复代码
测试确认修复有效性 (correctness): 修复有效，PR被批准合并

风险与影响

风险：风险包括：
1) 核心模型文件qwen3_5.py变更可能引入回归，影响Qwen3.5的非LoRA路径性能或正确性；
2) packed_modules_mapping问题若未完全解决，LoRA支持可能仍不完整，导致其他模块失效；
3) 新增测试仅覆盖密集模型（Qwen3.5-4B），未测试更大规模或混合专家模型，可能存在覆盖不足。
- 影响：直接影响使用Qwen3.5模型和LoRA适配器的用户，修复了一个导致CUDA图捕获崩溃的bug，提升模型可用性。对系统整体影响较小，仅限于Qwen3.5模型的LoRA功能。团队需关注类似模型LoRA支持的兼容性设计。
- 风险标记：核心模型变更, LoRA兼容性风险, 测试覆盖有限

关联脉络

PR #37816 [CI/Build][LoRA] Update Qwen35 LoRA testing: 关联测试更新，可能是同一功能线的后续PR，扩展测试覆盖
PR #37810 [Bugfix] Store Qwen3Next A_log in fp32: 涉及Qwen3Next模型修复，相关模型结构调整
PR #37338 [Perf] [Bugfix] Fix Triton autotuning in inference for Qwen3.5: 涉及Qwen3.5性能bugfix，类似模型特定修复

#36976 [Bugfix][LoRA] Fix Qwen35 LoRA

执行摘要

修复 Qwen3.5 模型的 LoRA 适配器支持，解决 IndexError 问题。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论