#17122 [bugfix]GLM-4V model

原始 PR 作者 KnightLTC 合并时间 2026-04-01 10:37 文件变更 3 提交数 4 评论 11 代码增减 +38 / -3

执行摘要

修复 GLM-4V 模型在 VisionAttention 中因 num_dummy_heads 计算缺失导致的 dist_utils.divide 异常。

根据PR body描述，修复GLM-4V模型bug，具体为在VisionAttention中需使用num_dummy_heads进行计算，否则当num_dummy_heads=0且num_dummy_heads+num_heads不是self.tp_size的整数倍时，dist_utils.divide会抛出异常，影响模型正常运行。

对于从事NPU开发、多模态模型维护或视觉语言模型集成的工程师，建议精读此PR以理解num_dummy_heads参数传递和硬件兼容性处理；同时关注测试准确性问题的后续解决。

讨论亮点

Review讨论主要围绕两个点：1. 兼容性：reviewer xiaobaicxy询问修改是否影响其他硬件平台的正常运行，并要求在PR描述中添加GPU测试结果，但未显示后续回复或添加结果。2. 测试准确性：reviewer iforgetmyname指出新增测试文件中的mmm_accuracy = 0.2不准确，并引用外部文档链接，此问题未在讨论中解决。

实现拆解

实现分为三个关键改动：1. 在python/sglang/srt/models/glm4v.py中，向VisionAttention的__init__方法添加num_dummy_heads=vision_config.num_dummy_heads参数，确保计算时包含dummy heads；调整vision_utils.update_vit_attn_dummy_heads_config(self.config)调用顺序，以正确配置。2. 在python/sglang/srt/multimodal/processors/base_processor.py中，修改process_mm_data函数，排除'Glm4vProcessor'类以避免在NPU上应用不兼容的补丁。3. 新增test/registered/ascend/vlm_models/test_ascend_glm_4_5v.py测试文件，为GLM-4.5V模型添加NPU测试用例。

文件	模块	状态	重要度
`python/sglang/srt/models/glm4v.py`	srt/models	modified	8.0
`python/sglang/srt/multimodal/processors/base_processor.py`	srt/multimodal/processors	modified	6.0
`test/registered/ascend/vlm_models/test_ascend_glm_4_5v.py`	test/registered/ascend/vlm_models	added	5.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

__init__ process_mm_data test_vlm_mmmu_benchmark

评论区精华

跨硬件兼容性 正确性

reviewer xiaobaicxy 询问修改是否影响其他硬件平台的正常运行，并要求在 PR 描述中添加 GPU 测试结果。

结论：未在讨论中明确回复或添加测试结果，疑虑可能未解决。 · unresolved

测试准确性 测试

reviewer iforgetmyname 指出新增测试文件中的 mmm_accuracy = 0.2 不准确，并引用外部文档链接。

结论：未在讨论中解决，准确性问题悬而未决。 · unresolved

风险与影响

技术风险包括：1. 跨硬件兼容性风险：修改可能影响GPU等其他平台的模型行为，因未在PR描述中明确展示GPU测试结果。2. 测试覆盖率不足：新增测试用例的准确性被质疑，可能无法有效验证修复效果。3. 代码副作用：调整vision_utils.update_vit_attn_dummy_heads_config调用顺序可能引入配置时序问题，影响其他视觉模型组件。

对用户的影响：修复了GLM-4V模型在NPU上可能因计算异常导致的崩溃，提升模型稳定性。对系统的影响：确保多模态视觉语言模型在NPU和GPU上正常工作，支持更广泛的硬件部署。对团队的影响：新增测试用例有助于未来回归测试，但准确性疑虑需跟进验证。

跨硬件兼容性风险测试准确性未验证

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此PR修复了GLM-4V模型在VisionAttention中因num_dummy_heads参数缺失导致的dist_utils.divide异常，确保模型在NPU和GPU上稳定运行；但review中暴露了跨硬件兼容性风险和测试准确性疑虑，需团队跟进验证。

功能与动机

修复GLM-4V模型bug，解决当num_dummy_heads=0且与num_heads之和不是tp_size整数倍时，dist_utils.divide抛出异常的问题。动机源于模型在NPU硬件上的运行崩溃，PR body中明确描述："In VisionAttention, it is necessary to use num_dumy_heads to calculate. If num_dumy_heads=0 and the result of num_dumy_heads+num_heads is not an integer multiple of self.tp_size, dist_utils.divide will throw an exception"。

实现拆解

实现分为三个模块：

核心模型层 (python/sglang/srt/models/glm4v.py):
- 在VisionAttention的__init__方法中添加num_dummy_heads=vision_config.num_dummy_heads参数传递。
- 调整vision_utils.update_vit_attn_dummy_heads_config(self.config)调用顺序至Glm4vVisionModel初始化前，确保配置正确。
处理器层 (python/sglang/srt/multimodal/processors/base_processor.py):
- 修改process_mm_data函数，通过检查processor.__class__.__name__排除'Glm4vProcessor'，避免在NPU上应用不兼容的补丁。
测试层 (test/registered/ascend/vlm_models/test_ascend_glm_4_5v.py):
- 新增TestGLM4Models类，为GLM-4.5V模型添加NPU测试用例，但设置mmm_accuracy = 0.2。

评论区精华

Review讨论中最有价值的交锋集中在兼容性和测试准确性：

跨硬件兼容性: reviewer xiaobaicxy提问："Does it affect the normal operation of the model on other hardware platforms? Please add the GPU test results in the PR description." 这引发了关于修改是否通用化的疑虑，但未在后续讨论中明确解决。
测试准确性: reviewer iforgetmyname直接指出："this accuracy is incorrect https://docs.z.ai/guides/vlm/glm-4.5v"，质疑测试用例的基准值，此问题未被回复或修正。

风险与影响

技术风险:
1. 跨硬件兼容性：修改可能意外影响GPU或其他平台的模型行为，因缺乏GPU测试结果验证。
2. 测试覆盖不足：新增测试的准确性被质疑，可能无法有效捕捉回归错误。
3. 配置时序：调整vision_utils.update_vit_attn_dummy_heads_config调用顺序可能引入副作用，影响其他视觉模型初始化流程。
影响范围:
- 对用户：修复了GLM-4V模型在NPU上的潜在崩溃，提升多模态应用稳定性。
- 对系统：支持更广泛的硬件部署，但需确保修改不破坏现有GPU工作流。
- 对团队：新增测试为未来回归提供基础，但准确性问题需文档或代码更新以对齐标准。

关联脉络

从近期历史PR分析中，未发现直接修改相同文件或针对GLM-4V模型的PR，表明此变更可能是一个独立的bugfix。然而，标签npu和multimodal与其他PR（如PR 21763关于multimodal CI改进）共享，提示团队在持续优化多模态和NPU支持；本PR的测试准确性讨论可能关联到更广泛的模型评估标准演进。

支持 Prhub ♥

#17122 [bugfix]GLM-4V model

执行摘要

修复 GLM-4V 模型在 VisionAttention 中因 num_dummy_heads 计算缺失导致的 dist_utils.divide 异常。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论