#38517 [Bugfix][Quantization] Fix PerTensorScale loading with tuple shard_id in MergedColumnParallelLinear

原始 PR 作者 kkyyxhll 合并时间 2026-04-07 23:16 文件变更 1 提交数 1 评论 8 代码增减 +9 / -1

执行摘要

修复 MergedColumnParallelLinear 中 PerTensorScale 参数在 tuple shard_id 时的加载错误，解决 Qwen3.5 模型 FP8 静态逐张量量化输出乱码问题。

该PR旨在解决issue #38197中报告的问题：Qwen3.5模型（包括Dense和MoE变体）在使用FP8静态逐张量量化（compressed-tensors）时输出乱码。根本原因是MergedColumnParallelLinear.weight_loader_v2函数在处理PerTensorScaleParameter时，当loaded_shard_id为tuple类型（如(0,1,2)）时，错误地硬编码shard_id=0，导致只有第一个scale槽位被填充，其余槽位保持初始化值torch.finfo(torch.float32).min（约-3.4e38）。这破坏了权重数据，导致输出乱码。

该PR值得精读，因为它揭示了一个在融合线性层中处理量化scale参数的微妙bug。关注点：1. 理解MergedColumnParallelLinear如何支持tuple shard_id以处理融合投影（如Qwen3.5的in_proj_qkvz）。2. 学习PerTensorScaleParameter在量化权重加载中的角色。3. 注意bug的根因：硬编码shard_id=0忽略了tuple的语义，导致scale未正确传播。

讨论亮点

review讨论较少，但包含关键点：1. 审阅者yewentao256要求提供e2e lm_eval结果以确保不损害准确性，作者随后提供了Qwen3.5-9B在GSM8K任务上的测试结果（exact_match从0.876提升到0.884），证明修复有效且无回归。2. 审阅者最终批准PR（LGTM）。没有出现设计争议或未解决疑虑。

实现拆解

修改仅涉及一个文件vllm/model_executor/layers/linear.py中的weight_loader_v2函数。关键改动是：当loaded_shard_id为tuple时，不再硬编码shard_id=0，而是遍历tuple中的每个索引，为每个索引调用param.load_merged_column_weight。具体来说，在if isinstance(param, PerTensorScaleParameter)分支中，新增了条件判断：如果loaded_shard_id是tuple，则遍历每个idx并加载；否则保持原行为（shard_id=0）。这确保了PerTensorScaleParameter能正确应用于tuple指定的所有分区。

文件	模块	状态	重要度
`vllm/model_executor/layers/linear.py`	model_executor/layers	modified	9.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

MergedColumnParallelLinear.weight_loader_v2 PerTensorScaleParameter.load_merged_column_weight

评论区精华

修复正确性验证 正确性

审阅者 yewentao256 要求提供 e2e lm_eval 结果以确保修复不损害准确性。

结论：作者提供了 Qwen3.5-9B 在 GSM8K 任务上的测试结果，显示 exact_match 从 0.876 提升到 0.884，证明修复有效且无回归。 · 已解决

风险与影响

风险较低：1. 变更范围极小（仅10行改动），逻辑清晰，直接针对已知bug。2. 回归风险低：修复仅影响PerTensorScaleParameter在tuple shard_id场景下的行为，其他场景（如int shard_id或非PerTensorScaleParameter）保持不变。3. 作者已通过测试验证修复效果，包括Qwen3.5多个模型变体和量化配置，并提供了lm_eval结果。4. 潜在风险：如果其他模型也使用类似tuple shard_id的融合投影但未被测试覆盖，可能存在未发现的影响，但鉴于变更的针对性，这种风险较小。

影响范围：1. 用户影响：修复了Qwen3.5模型（Dense和MoE）在使用FP8静态逐张量量化时的输出乱码问题，提升了模型可用性和准确性。2. 系统影响：仅影响权重加载逻辑，对推理性能无直接影响。3. 团队影响：解决了特定量化配置下的关键bug，减少了用户支持负担。影响程度：中等，因为bug仅影响特定模型（Qwen3.5）和特定量化配置（FP8静态逐张量），但对该配置的用户至关重要。

量化参数处理错误模型特定配置影响

关联 Issue

#38197 [Bug]: Qwen3.5-dense wfp8afp8 w: per-tensor a: per-tensor Output garbled text, but in sglang is norm

完整报告

执行摘要

该PR修复了MergedColumnParallelLinear.weight_loader_v2函数中的一个关键bug：当PerTensorScaleParameter遇到tuple类型的shard_id（如(0,1,2)）时，代码错误地硬编码shard_id=0，导致量化scale只填充到第一个槽位，其余槽位保持垃圾值（约-3.4e38）。这导致Qwen3.5模型在使用FP8静态逐张量量化时输出乱码。修复通过遍历tuple中的每个索引来正确加载scale值，解决了问题且无回归风险。

功能与动机

该PR旨在解决issue #38197中报告的问题：Qwen3.5模型（包括Dense和MoE变体）在使用FP8静态逐张量量化（compressed-tensors）时输出乱码。根本原因在于Qwen3.5引入了Gated Delta Net层，其中融合投影in_proj_qkvz将in_proj_qkv（3个分区）和in_proj_z（1个分区）合并为一个MergedColumnParallelLinear，其stacked_params_mapping定义了tuple shard_id=(0,1,2)表示scale应用于前三个分区。bug导致只有第一个分区的scale被正确加载，其余分区使用垃圾scale值，从而破坏权重数据。

实现拆解

仅修改一个文件：vllm/model_executor/layers/linear.py。

关键改动：在weight_loader_v2函数中，当处理PerTensorScaleParameter且loaded_shard_id为None或tuple时，原代码硬编码shard_id=0：

if isinstance(param, PerTensorScaleParameter):
    param.load_merged_column_weight(loaded_weight=loaded_weight, shard_id=0)

修复后，新增条件判断以处理tuple情况：

if isinstance(param, PerTensorScaleParameter):
    if isinstance(loaded_shard_id, tuple):
        for idx in loaded_shard_id:
            param.load_merged_column_weight(
                loaded_weight=loaded_weight, shard_id=idx
            )
    else:
        param.load_merged_column_weight(
            loaded_weight=loaded_weight, shard_id=0
        )

这样，当loaded_shard_id为tuple时，会遍历每个索引调用load_merged_column_weight，确保scale正确应用于所有指定分区。

评论区精华

review讨论简洁但包含关键验证点：

审阅者yewentao256要求e2e测试："Could you also add e2e lm_eval result to make sure we don't hurt acc?"
作者提供量化结果：作者回应了Qwen3.5-9B在GSM8K任务上的lm_eval结果，显示exact_match从0.876提升到0.884，证明修复有效且无回归。
最终批准：审阅者确认"LGTM, thanks for the work!"

风险与影响

风险分析：

变更范围极小（10行改动），逻辑清晰，直接针对已知bug。
回归风险低：修复仅影响PerTensorScaleParameter在tuple shard_id场景下的行为，其他场景保持不变。
测试覆盖充分：作者验证了Qwen3.5多个模型变体（0.8B、27B、35B-A3B）和量化配置（静态/动态、逐张量/逐通道），并提供了lm_eval结果。
潜在未覆盖场景：如果其他模型使用类似tuple shard_id的融合投影但未被测试，可能存在影响，但鉴于变更针对性，风险较小。

影响分析：

用户影响：修复了Qwen3.5模型在FP8静态逐张量量化下的输出乱码问题，提升了模型可用性。
系统影响：仅影响权重加载逻辑，对推理性能无直接影响。
团队影响：解决了特定配置下的关键bug，减少了用户支持负担。

关联脉络

直接关联issue #38197：该PR直接修复此issue，issue提供了详细的问题描述和重现步骤。
与历史PR的关联：
- PR #39054（修复Trtllm FP8 MoE权重重排内存碎片化）：同属量化相关bugfix，但解决不同问题。
- PR #35733（支持NVFP4模型）：同属量化特性支持，涉及compressed-tensors格式，但本PR是bugfix而非新功能。
演进趋势：该PR反映了vLLM在支持新兴模型（如Qwen3.5）和复杂量化配置时，需要不断优化底层权重加载逻辑，以处理融合层和tuple分区等高级特性。

支持 Prhub ♥

#38517 [Bugfix][Quantization] Fix PerTensorScale loading with tuple shard_id in MergedColumnParallelLinear

执行摘要

修复 MergedColumnParallelLinear 中 PerTensorScale 参数在 tuple shard_id 时的加载错误，解决 Qwen3.5 模型 FP8 静态逐张量量化输出乱码问题。

实现拆解

评论区精华

风险与影响

关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论