在 Intel XPU 上启用 Gemma 4 系列模型
**建议精读**:`xpu_backend.py` 中的 SWA 页表翻译设计和 `gemma4_fused_ops.py` 中的路由融合 kernel,这两个是 XPU 后端适配混合注意力模型的关键创新。整体架构清晰,改动自包含,值得参考。**值得关注的决策**:将 fused QKV RMSNorm 断言放宽为 `is_cuda or is_xpu` 并依赖 Triton JIT 的设备无关性,以及通过 `fuse_scale` 将 scale 折叠进 norm.weight 减少 kernel launch。