XPU 新增块缩放 W8A8 FP8 内核路径
该 PR 是理解 vllm 内核选择体系如何扩展的典型例子,展示了添加新平台特定内核并设计 fallback 策略的完整流程。建议内核开发者和平台移植人员精读,尤其是 `xpu.py` 中类实现和 `linear/__init__.py` 中注册模式。
标签列表
聚合结果
XPU 新增块缩放 W8A8 FP8 内核路径
该 PR 是理解 vllm 内核选择体系如何扩展的典型例子,展示了添加新平台特定内核并设计 fallback 策略的完整流程。建议内核开发者和平台移植人员精读,尤其是 `xpu.py` 中类实现和 `linear/__init__.py` 中注册模式。
XPU上ViT注意力float32回退到Triton
值得合并,修复明确且风险低。变更简单,与现有设计一致,无测试配套(但已有integration测试覆盖)。
原始 PR · 作者 zhenwei-intel · 合并时间 2026-06-03 00:14
XPU 启用 norm/act 量化融合
该 PR 值得合并,但建议作者补充测试用例验证 XPU 上融合 pass 的正确性和性能。
移除 XPU W4A16 kernel 的输出尺寸检查
该 PR 值得合入,属于必要的约束放宽,应尽快集成到发布版本中。鉴于无相关测试,建议后续增加对非 32 倍数输出尺寸的端到端推理测试。
为 XPU 添加 Triton 实现的 Mamba selective scan 前向操作
**值得精读**:对 Triton kernel 的开发者和硬件移植团队有参考价值,展示了如何将 CUDA 自定义算子移植到 Triton 并在新硬件上运行。**设计决策关注点**:选择 Triton 而非原生 SYCL 或 Level Zero,降低了开发成本但牺牲了部分性能;并行化策略的取舍(访存 vs 计算)是典型 trade-off,读者可对比仓库中其他 Triton kernel(如 `fused_moe`)的维度安排。**后续跟进**:建议作者或社区优先优化访存模式(如交换 dim/seqlen 的并行维度),并补充 Triton kernel 的单元测试。
原始 PR · 作者 chaojun-zhang · 合并时间 2026-06-02 11:09
修复 XPU 上 FP8 量化少传 2 个参数的问题
此 PR 为必要的 bugfix,改动小而精,值得合入。建议在合入后验证 XPU 上 FP8 量化功能正常。
原始 PR · 作者 chaojun-zhang · 合并时间 2026-06-01 19:21
修复XPU上测试音频视频的间歇失败
值得合并。该 PR 修复了 XPU 特定的 CI flake,变更简单且经过审核。对于维护者,建议关注测试 fixture 作用域与隔离性的权衡,但当前方案是合理的。无需深入精读。
XPU GDN 注意力支持 MTP 推测解码
该 PR 功能明确、改动集中,值得相关开发人员精读。关注的要点: - 如何将推测解码元数据从 attention metadata 提取并传递给底层内核。 - 使用局部变量统一管理内核参数的模式,便于后续扩展。 - 与 CUDA 端同类实现(参考 `qwen_gdn_linear_attn.py`)的对比可加深对跨平台一致性设计的理解。 - 自动化 review 中提出的代码质量建议虽未完全采纳,但可作为后续代码清洁的切入点。