#39181 [Bugfix]Fix EP precision for Qwen3.5, Qwen3-Next

vllm-project/vllm · 作者 USTCKAY · 合并时间 2026-04-09 05:47

分析状态已生成

文件变更 2提交数 7 · 评论 4

代码增减 +4 / -0

bugfix model qwen v1

执行摘要

修复 Qwen3.5/Qwen3-Next 在序列并行下共享专家权重分片导致的精度问题。

根据PR body描述，当sequence_parallel启用时，共享专家会应用张量并行，但在计算结束时未执行all-reduce，导致精度问题。作者在vllm 0.18.0环境中测试发现此问题，并指出最新main分支在共享专家处理上无差异，因此需要修复。PR body详细列出了环境配置，包括Ubuntu 24.04、PyTorch 2.10.0、CUDA 12.8和8个NVIDIA A800 GPU，以说明测试场景。

该PR值得快速浏览，重点关注SharedExpert中disable_tp参数的传递逻辑，以及is_sequence_parallel如何与现有并行配置集成。对于从事模型并行或MoE开发的工程师，可学习如何正确处理序列并行下的专家权重分片。建议检查其他MoE模型是否有类似问题。

讨论亮点

Review讨论较少，仅gemini-code-assist[bot]的评论指出PR通过添加is_sequence_parallel参数支持序列并行，并条件性禁用张量并行，无其他反馈。vadiklyutiy直接批准。Issue评论中，作者USTCKAY提到因DCO问题重开PR（关联#38795），并请求重跑CI检查，vadiklyutiy建议通过空提交触发CI重试。无技术争议或设计权衡讨论。

实现拆解

实现方案涉及两个文件修改：1. 在vllm/model_executor/models/qwen2_moe.py的SharedExpert类__init__方法中，添加is_sequence_parallel参数，并传递给gate_up_proj（ColumnParallelLinear）和down_proj（RowParallelLinear）的disable_tp参数，以在序列并行时禁用张量并行。2. 在vllm/model_executor/models/qwen3_next.py的Qwen3NextForCausalLM类__init__方法中，将self.is_sequence_parallel传递给SharedExpert的is_sequence_parallel参数，确保共享专家初始化时获取正确的并行配置。

文件	模块	状态	重要度
`vllm/model_executor/models/qwen2_moe.py`	model_executor	modified	8.0
`vllm/model_executor/models/qwen3_next.py`	model_executor	modified	6.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

SharedExpert.__init__ Qwen3NextForCausalLM.__init__

评论区精华

序列并行下共享专家权重分片问题 正确性

PR body 指出序列并行启用时，共享专家权重被分片且未 all-reduce 导致精度问题。

结论：通过添加 is_sequence_parallel 参数禁用张量并行来修复。 · 已解决

CI 失败与重试 other

作者 USTCKAY 请求重跑因 Data limit exceeded 失败的 CI 检查，vadiklyutiy 建议空提交触发。

结论：作者执行后 CI 通过，PR 被合并。 · 已解决

风险与影响

风险较低：1. 变更范围小，仅修改两个模型文件，添加参数传递逻辑，未触及核心计算路径。2. 修复针对特定配置（序列并行+共享专家），可能引入回归风险：如果is_sequence_parallel参数传递错误或与其他并行配置冲突，可能导致未预期的行为，但现有代码中self.is_sequence_parallel应已正确定义。3. 缺少测试覆盖：PR未添加新测试，依赖现有测试验证，但针对此特定场景的精度测试可能不足。4. 兼容性风险：修改了SharedExpert的__init__签名，但仅添加可选参数，不影响现有调用。

影响范围有限：1. 用户影响：修复了Qwen3.5和Qwen3-Next模型在序列并行下的精度问题，提升模型推理准确性，仅影响使用这些模型且启用序列并行的用户。2. 系统影响：无性能或功能退化，通过禁用不必要的张量并行避免精度损失。3. 团队影响：代码变更简单，易于维护，但需确保其他MoE模型类似问题已处理。影响程度中等，针对特定模型配置的bugfix。

缺少测试覆盖特定配置依赖

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

该PR修复了Qwen3.5和Qwen3-Next模型在启用序列并行时，共享专家权重被错误分片导致的精度问题。通过向SharedExpert传递is_sequence_parallel参数，并在序列并行时禁用张量并行，确保计算正确性。变更影响范围限于特定模型配置，风险较低，但缺乏针对性测试覆盖。

功能与动机

问题背景：当sequence_parallel启用时，MoE模型中的共享专家权重会应用张量并行，但在计算结束时未执行all-reduce操作，导致精度损失。作者在vllm 0.18.0环境中使用8个NVIDIA A800 GPU测试确认此问题，并指出最新main分支在共享专家处理上无差异。

关键表述：> "当sequence_parallel启用时，共享专家会应用张量并行且未执行all-reduce，导致精度问题。"

实现拆解

修改涉及两个核心文件，均位于vllm/model_executor/models/模块：

文件	变更点	关键代码
`qwen2_moe.py`	在`SharedExpert.__init__`中添加`is_sequence_parallel`参数，并传递给`gate_up_proj`和`down_proj`的`disable_tp`	```python
is_sequence_parallel: bool = False,
...
disable_tp=is_sequence_parallel,
```
`qwen3_next.py`	在`Qwen3NextForCausalLM.__init__`中将`self.is_sequence_parallel`传递给`SharedExpert`	```python
is_sequence_parallel=self.is_sequence_parallel,
```

逻辑说明：is_sequence_parallel参数控制ColumnParallelLinear和RowParallelLinear的disable_tp，当为True时禁用张量并行，避免权重分片，从而修复精度问题。

评论区精华

Review讨论较少，仅gemini-code-assist[bot]总结变更：

"This pull request introduces support for sequence parallelism in the Qwen2 MoE and Qwen3 Next models by adding an is_sequence_parallel parameter..."

Issue评论中，作者提及因DCO问题重开PR（关联#38795），并请求重跑CI检查。vadiklyutiy建议空提交触发CI，最终所有检查通过后合并。无深度技术交锋。

风险与影响

技术风险：

回归风险：修改了SharedExpert初始化签名，但参数可选，不影响现有调用；若is_sequence_parallel传递错误（如未正确从模型配置获取），可能导致未预期行为。
测试覆盖不足：PR未添加新测试，依赖现有测试验证，但针对序列并行+共享专家的特定场景可能缺乏充分测试。
配置依赖：修复仅针对Qwen3.5/Qwen3-Next，其他MoE模型可能存在类似问题，需额外检查。

影响评估：

用户影响：仅影响使用Qwen3.5或Qwen3-Next且启用序列并行的用户，修复后提升推理精度。
系统影响：无性能退化，通过禁用不必要分片避免计算错误。
团队影响：变更简单，易于维护，但需注意MoE模型的一致性处理。

关联脉络

直接关联：PR #38795可能为同一修复的先前版本，因DCO问题重开。
功能演进：近期多个PR涉及MoE模型优化（如#39005重构专家目录、#39315修复FlashInfer MoE崩溃），显示团队持续改进MoE支持。本PR是其中针对特定模型精度问题的bugfix。
趋势洞察：vLLM在扩展模型支持（如Qwen系列）的同时，注重并行计算下的正确性，序列并行与张量并行的交互成为常见问题点。

支持 Prhub ♥

#39181 [Bugfix]Fix EP precision for Qwen3.5, Qwen3-Next

执行摘要

修复 Qwen3.5/Qwen3-Next 在序列并行下共享专家权重分片导致的精度问题。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论