执行摘要
修复 conch 内核在 3D 输入下的崩溃,通过重塑为 2D 以适应 GEMM 操作。
PR body 描述:'When running quantized models (e.g. AWQ) through the transformers backend, the conch kernel crashes with: ValueError: too many values to unpack (expected 2) at conch/ops/quantization/gemm.py:86。 The transformers backend passes 3D tensors (batch, seq_len, hidden_dim) through linear layers, but mixed_precision_gemm expects a 2D input (M, K)。' 需要修复此崩溃以支持 transformers backend 的量化模型。
此 PR 值得快速 review 和合并,因为它是简单 bugfix;建议关注重塑逻辑是否正确处理各种输入形状,并参考 machete 内核的实现以确保一致性。
review 中没有实质性讨论;只有自动机器人评论(gemini-code-assist[bot])指出更改,以及 Isotr0py 的批准,无争议或决策结论。
参与讨论