#13121 [CPU] add kernel apply_rotary_pos_emb_cpu for Qwen3-VL and Qwen3-Omni

原始 PR 作者 blzheng 合并时间 2026-03-30 14:43 文件变更 4 提交数 13 评论 2 代码增减 +303 / -1

执行摘要

为 Qwen3-VL 和 Qwen3-Omni 添加 CPU 旋转位置嵌入核函数以优化性能。

根据 PR 标题和 body，动机是添加 CPU 核函数以支持 Qwen3-VL 和 Qwen3-Omni 模型的旋转位置嵌入，旨在优化这些模型在 CPU 硬件上的推理性能，具体通过实现高效的内核来替代原生实现。

建议精读此 PR，特别是核函数实现中的向量化技巧和并行化策略，对于优化 CPU 推理性能有借鉴价值。关注 rope.cpp 中的算法设计和 utils.py 中的条件调度逻辑。

讨论亮点

review 中仅有一条评论，来自 mingfeima，建议在核函数中使用 parallel_for 进行并行优化，以提升性能。作者在后续提交（如 'resovle comments' 和 'add support for bf16 sincos'）中采纳此建议，表明讨论聚焦于性能优化且已解决。

实现拆解

实现分为三个主要部分：

1) 在 python/sglang/srt/layers/rotary_embedding/utils.py 中修改调度逻辑，当检测到 CPU 且支持 AMX 时，使用新核函数 apply_rotary_pos_emb_cpu；
2) 在 sgl-kernel/csrc/cpu/rope.cpp 中实现核心核函数 apply_rotary_pos_emb_kernel_impl，采用向量化（如 at::vec::Vectorized）和 parallel_for 进行并行计算，支持 BF16 和 FP32 数据类型；
3) 在 sgl-kernel/csrc/cpu/torch_extension_cpu.cpp 中注册核函数，并在 test/srt/cpu/test_rope.py 中添加测试函数 test_apply_rotary_pos_emb 验证正确性。

文件	模块	状态	重要度
`sgl-kernel/csrc/cpu/rope.cpp`	sgl-kernel/cpu/rope	modified	8.0
`python/sglang/srt/layers/rotary_embedding/utils.py`	sglang/srt/layers/rotary_embedding	modified	6.0
`test/srt/cpu/test_rope.py`	test/cpu/rope	modified	5.0

关键符号

apply_rotary_pos_emb_kernel_impl apply_rotary_pos_emb_cpu

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

使用 parallel_for 进行并行化优化 性能

mingfeima 在 review 中建议在核函数实现中使用 parallel_for 以提升计算并行度。

结论：作者采纳建议，在后续提交中优化了核函数，添加了 parallel_for 调用。 · 已解决

风险与影响

技术风险包括：

1) 核函数正确性风险：新实现的 apply_rotary_pos_emb_kernel_impl 可能因算法错误导致输出偏差，测试覆盖了常见情况但可能遗漏边缘场景（如非连续输入，通过提交 'support non-contiguous input' 部分缓解）；
2) 平台依赖性风险：性能优化依赖于 CPU 的 AMX 支持，在不支持的平台上回退到原生实现可能影响性能一致性；
3) 回归风险：修改 utils.py 中的调度逻辑可能意外影响其他模型的旋转嵌入执行路径，需确保兼容性。

影响范围：

1) 对用户：Qwen3-VL 和 Qwen3-Omni 模型在支持 AMX 的 CPU 上推理速度可能显著提升，增强硬件利用率；
2) 对系统：扩展了 SGLang 的 CPU 核函数库，提升多模型支持能力，但增加了代码复杂性和维护负担；
3) 对团队：需确保测试充分以维护代码质量，并为类似 CPU 优化提供参考模式。

新核函数正确性风险平台依赖性风险调度逻辑变更风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

PR #13121 分析报告

执行摘要

此 PR 为 Qwen3-VL 和 Qwen3-Omni 模型新增了一个 CPU 旋转位置嵌入核函数，通过向量化和并行化优化性能，在支持 AMX 的 CPU 上启用，并添加单元测试验证正确性，是提升模型推理效率的有意义改进。

功能与动机

动机源于优化 Qwen3-VL 和 Qwen3-Omni 模型在 CPU 上的旋转位置嵌入操作，以提升推理性能。PR 标题明确指示为这些模型添加 CPU 核函数，解决原生实现可能存在的效率瓶颈。

实现拆解

实现主要涉及三个文件修改：

sgl-kernel/csrc/cpu/rope.cpp：新增 apply_rotary_pos_emb_kernel_impl 函数，使用 at::vec::Vectorized 进行向量化计算，并通过 parallel_for 实现并行处理，支持 BF16 和 FP32 数据类型。代码片段示例：

template <typename scalar_t>
void apply_rotary_pos_emb_kernel_impl(
    scalar_t* __restrict__ query,
    scalar_t* __restrict__ key,
    float* __restrict__ cos,
    float* __restrict__ sin,
    ...) {
    using bVec = at::vec::Vectorized<scalar_t>;
    at::parallel_for(0, num_tokens, 0, [&](int64_t begin, int64_t end) {
        // 并行计算循环
    });
}

python/sglang/srt/layers/rotary_embedding/utils.py：修改条件调度，当 _is_cpu 且 _is_cpu_amx_available 为真时，使用 torch.ops.sgl_kernel.apply_rotary_pos_emb_cpu 替代原生实现。
test/srt/cpu/test_rope.py：添加 test_apply_rotary_pos_emb 测试函数，对比新核函数与原生实现的输出一致性，确保正确性。

评论区精华

review 讨论较少，仅有一条关键评论：

mingfeima 建议："use parallel_for"，旨在优化核函数性能。作者在后续提交中采纳此建议，通过 resolve comments 等提交优化了并行化实现。

风险与影响

技术风险：核函数算法可能引入计算错误，尤其是边缘情况如非连续输入（已通过提交部分缓解）；平台依赖 AMX 支持可能导致性能不一致；调度逻辑变更可能影响其他模型执行路径。
影响评估：对用户，模型在兼容 CPU 上推理速度可能提升；对系统，扩展了 CPU 核函数库，但增加了维护复杂性；对团队，需加强测试覆盖以确保质量。

关联脉络

从历史 PR 看，此 PR 与 Qwen 模型优化相关，如 PR #21448 修复 Qwen3.5 MoE 问题，表明团队持续改进 Qwen 系列模型的支持和性能。本 PR 聚焦 CPU 核函数，是硬件优化链条的一部分，可能为未来类似 CPU 或 XPU 优化提供参考。

#13121 [CPU] add kernel apply_rotary_pos_emb_cpu for Qwen3-VL and Qwen3-Omni

执行摘要

为 Qwen3-VL 和 Qwen3-Omni 添加 CPU 旋转位置嵌入核函数以优化性能。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论