#38161 [ROCm][CI] Fix flaky GPTQ compile correctness test

原始 PR 作者 AndreasKaratzas 合并时间 2026-03-26 19:57 文件变更 2 提交数 1 评论 6 代码增减 +41 / -34

执行摘要

修复 ROCm 平台 GPTQ 编译正确性测试的 flaky 行为，通过零初始化整数参数并纠正测试逻辑。

根据 PR body，initialize_single_dummy_weight 函数仅初始化浮点参数，跳过整数张量（如 GPTQ 的 qweight 和 qzeros），在 ROCm 平台上导致未初始化的 GPU 内存，引发非确定性输出；同时测试中的 all_envs.append({}) 被错误调用两次且 all_args 被乘以 3，造成长度不匹配，使 zip() 截断并在不同进程中产生差异，从而出现 flaky 测试失败。

建议工程师精读此 PR，以学习 ROCm 与 CUDA 在内存初始化方面的平台差异，以及如何编写健壮的跨平台测试；特别关注 initialize_single_dummy_weight 中的条件逻辑，它展示了处理平台特定行为的设计决策。

讨论亮点

review 中，gemini-code-assist[bot] 标记了关键修复，指出零初始化非浮点参数对于 ROCm 平台正确性的重要性；AndreasKaratzas 补充解释 'torch empty works fine on CUDA, it's rocm that has this problem.'，澄清了问题仅限于 ROCm 平台，验证了平台特定修复的必要性。

实现拆解

实现涉及两个文件：在 vllm/model_executor/model_loader/weight_utils.py 中，修改 initialize_single_dummy_weight 函数，添加对非浮点参数的条件检查，并在 ROCm 平台上调用 param.zero_() 进行零初始化；在 tests/compile/fullgraph/test_basic_correctness.py 中，修正测试逻辑：为 inductor 模式添加 all_envs.append({})，删除重复的 all_envs.append({})，并移除 all_args * 3 以确保参数和环境列表长度匹配。

文件	模块	状态	重要度
`vllm/model_executor/model_loader/weight_utils.py`	model_loader	modified	6.0
`tests/compile/fullgraph/test_basic_correctness.py`	test	modified	5.0

关键符号

initialize_single_dummy_weight

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

ROCm 平台非浮点参数初始化 正确性

gemini-code-assist[bot] 指出零初始化是正确性修复，防止非确定性输出；AndreasKaratzas 解释问题仅限 ROCm，CUDA 上正常。

结论：决定在 ROCm 上零初始化整数参数，以提升测试可重现性。 · 已解决

测试列表长度不匹配 正确性

gemini-code-assist[bot] 标记了 `all_envs` 和 `all_args` 长度修正的关键性，指出此前导致 `zip()` 截断和非确定性行为。

结论：修正了测试逻辑，移除重复添加和乘法，确保正确比较。 · 已解决

风险与影响

风险较低，但需注意：零初始化可能掩盖 ROCm 平台上的其他内存问题（如泄漏），但此修复旨在提升测试可重现性，风险可控；测试逻辑修正减少了 flaky 失败，但依赖正确的平台检测（current_platform.is_rocm()），若检测错误可能影响其他平台。

影响范围有限：主要改善 ROCm 平台上 GPTQ 模型编译测试的稳定性和可重现性，减少 CI 失败，提升开发效率；对用户无直接影响，因为变更聚焦于测试和权重初始化内部逻辑，不涉及生产代码功能。

平台特定依赖测试逻辑错误

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本 PR 修复了 ROCm 平台上 GPTQ 编译正确性测试的 flaky 行为，通过零初始化整数权重参数并纠正测试代码中的列表长度不匹配，提升了测试稳定性和可重现性，影响范围限于 CI 测试和模型加载内部逻辑。

功能与动机

该变更旨在解决两个关键问题：首先，权重初始化函数 initialize_single_dummy_weight 仅处理浮点参数，导致 GPTQ 的整数参数（如 qweight 和 qzeros）在 ROCm 上未初始化，引发非确定性输出；其次，测试函数 test_compile_correctness 中 all_envs 和 all_args 列表长度不匹配，使 inductor 循环成为死代码，并在多进程中产生差异。PR body 明确描述了这些缺陷及其对测试可靠性的影响。

实现拆解

实现涉及两个核心文件：

权重初始化修复：在 vllm/model_executor/model_loader/weight_utils.py 中，initialize_single_dummy_weight 函数被重构，添加条件分支处理非浮点参数，具体代码片段如下：
```
if not torch.is_floating_point(param):
    if current_platform.is_rocm():
        param.zero_()
    return
```
这确保了在 ROCm 平台上整数参数被零初始化，而其他逻辑（如浮点参数初始化和 TPU 处理）保持不变。
测试逻辑修正：在 tests/compile/fullgraph/test_basic_correctness.py 中，调整了 all_envs.append({}) 的调用：为 inductor 模式添加一个条目，删除重复的 eager 模式条目，并移除 all_args * 3 的乘法，使列表长度对齐，从而正确启用比较循环。

评论区精华

review 讨论突出了平台特定性和正确性考量：

gemini-code-assist[bot] 标记修复为“关键”，强调零初始化对 ROCm 正确性的必要性。
AndreasKaratzas 补充说明：“torch empty works fine on CUDA, it's rocm that has this problem.”，这解释了为何修复仅针对 ROCm，而非通用方案，体现了对平台差异的深入理解。

风险与影响

风险分析：主要风险包括零初始化可能掩盖 ROCm 上的其他内存问题（如未初始化的缓冲区），但鉴于修复目标为测试可重现性，此风险较低；测试逻辑修正依赖正确的平台检测，若 current_platform.is_rocm() 失效可能影响跨平台行为。
影响分析：直接影响是提升 ROCm 平台上 GPTQ 编译测试的稳定性，减少 CI flaky 失败，间接加速开发流程；对终端用户无直接影响，因为变更局限于测试和内部初始化代码。

关联脉络

从近期历史 PR 看，本 PR 与 #38137 和 #38167 等 ROCm CI 修复 PR 关联紧密，共同反映了团队在加强 ROCm 平台测试可靠性的持续投入。这些变更往往针对平台特定 bug，如内存初始化或参数顺序错误，说明在异构硬件环境中维护一致性测试的挑战。结合其他 PR（如 #38178 涉及 CI 内核修复），整体趋势是优化 CI 流水线以支持多样化硬件配置。

#38161 [ROCm][CI] Fix flaky GPTQ compile correctness test

执行摘要

修复 ROCm 平台 GPTQ 编译正确性测试的 flaky 行为，通过零初始化整数参数并纠正测试逻辑。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论