Prhub

#38167 [ROCm][CI] Fix wvSplitKrc mock argument order in test_rocm_unquantized_gemm

vllm-project/vllm · 作者 AndreasKaratzas · 合并时间 2026-03-26 19:55

分析状态 已生成
文件变更 1提交数 1 · 评论 1
代码增减 +1 / -1
rocm test bugfix ci

执行摘要

修复 ROCm 测试中 wvSplitKrc mock 的参数顺序错误,确保 CI 通过。

根据PR body,修复了test_rocm_unquantized_gemm_gfx950_wvsplitkrc_path测试失败,原因是mock设置中的复制粘贴错误导致参数顺序颠倒(wvSplitKrc mock错误地复制了wvSplitK的参数顺序),返回错误形状的张量,使torch.allclose失败。

该PR变更简单,无需精读。值得快速查看以了解测试mock的使用方式和参数顺序敏感性的处理,但无复杂设计决策。

讨论亮点

review讨论简洁:gemini-code-assist[bot]确认修复无误,tjtanaa批准并合并。未出现技术争议或深入讨论,表明修复直接明了。

实现拆解

仅修改一个文件:tests/model_executor/layers/test_rocm_unquantized_gemm.py。在wvsplitkrc_mock的lambda函数中,将参数顺序从lambda w, x_view, _, __: x_view @ w.t()改为lambda x_view, w, _, __: x_view @ w.t(),以正确模拟wvSplitKrc函数的调用方式(activations first)。

文件 模块 状态 重要度
tests/model_executor/layers/test_rocm_unquantized_gemm.py tests/model_executor/layers modified 2.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

wvsplitkrc_mock

评论区精华

修复 mock 参数顺序确认 测试

gemini-code-assist[bot] 确认修复无误,tjtanaa 批准合并。

结论:修复被接受并合并,无争议。 · 已解决

风险与影响

风险较低:仅修改测试代码,不影响生产逻辑。但需注意mock参数顺序错误可能导致测试假通过,从而隐藏真实问题;本次修复已纠正此问题。此外,无回归风险,因为变更单一且目标明确。

对最终用户无直接影响。对开发团队:修复了CI测试失败,提升了代码质量和CI可靠性,确保ROCm平台相关测试正确运行。影响范围限于ROCm平台的特定测试模块。

测试 mock 错误 参数顺序敏感

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

执行摘要

修复了ROCm平台中一个测试函数的mock参数顺序错误,解决了因复制粘贴错误导致的CI失败,确保测试套件稳定运行。

功能与动机

本PR旨在修复test_rocm_unquantized_gemm_gfx950_wvsplitkrc_path测试的失败问题。根据PR body描述,失败原因是mock设置中的复制粘贴错误:wvSplitKrc mock函数参数顺序与C++实现不匹配(wvSplitKwvSplitKrc有相反的参数约定),导致返回张量形状错误,使torch.allclose断言失败。

实现拆解

变更仅涉及一个文件:tests/model_executor/layers/test_rocm_unquantized_gemm.py。具体修改如下:

  • wvsplitkrc_mock的lambda参数顺序从lambda w, x_view, _, __: x_view @ w.t()调整为lambda x_view, w, _, __: x_view @ w.t()
  • 此调整匹配utils.pyops.wvSplitKrc(x, weight, ...)的调用方式(activations first),确保mock返回正确的张量形状(16x256而非256×16)。

评论区精华

review讨论简洁,主要包括:

  • gemini-code-assist[bot]:确认修复,无额外反馈。
  • tjtanaa:批准合并,表示LGTM(Looks Good To Me)。
    未出现技术争议或深入讨论,表明修复直接明了且被团队接受。

风险与影响

风险分析

  • 低风险:仅修改测试代码,无生产逻辑变更。
  • 潜在风险:mock参数顺序错误可能隐藏真实问题,但本次修复已纠正。
  • 无回归或兼容性问题,因为变更目标明确且单一。

影响评估

  • 对用户:无直接影响,因为是内部测试修复。
  • 对系统:提升CI测试通过率,确保ROCm平台相关功能测试正确性。
  • 对团队:维护代码质量,减少CI flaky失败,提高开发效率。

关联脉络

从近期历史PR分析看,本PR是ROCm平台测试维护的一部分,与以下PR关联:

  • PR #38137 和 #38161:同为ROCm测试bugfix,针对状态泄露和flaky行为,反映团队在加强测试稳定性。
  • PR #38155:添加ROCm测试条目,扩展测试覆盖。
    这些PR共同推动了ROCm CI的完善,表明vLLM项目在持续优化AMD GPU平台的测试套件。

参与讨论