Prhub

vllm-project/vllm · 标签视图

标签列表

聚合结果

intel-gpu 相关 PR

2026-06-03

#39968 [XPU] Add XPU block-scaled W8A8 fp8 path

原始 PR · 作者 xwu-intel · 合并时间 2026-06-03 20:16

功能 重要性 7.29 洞察度 6.00

XPU 新增块缩放 W8A8 FP8 内核路径

该 PR 是理解 vllm 内核选择体系如何扩展的典型例子,展示了添加新平台特定内核并设计 fallback 策略的完整流程。建议内核开发者和平台移植人员精读,尤其是 `xpu.py` 中类实现和 `linear/__init__.py` 中注册模式。

2026-06-02

#44168 [XPU] [Bug] remove xpuw4a16 output size check

原始 PR · 作者 zufangzhu · 合并时间 2026-06-02 22:26

缺陷修复 重要性 5.61 洞察度 2.00

移除 XPU W4A16 kernel 的输出尺寸检查

该 PR 值得合入,属于必要的约束放宽,应尽快集成到发布版本中。鉴于无相关测试,建议后续增加对非 32 倍数输出尺寸的端到端推理测试。

功能 重要性 7.67 洞察度 5.00

为 XPU 添加 Triton 实现的 Mamba selective scan 前向操作

**值得精读**:对 Triton kernel 的开发者和硬件移植团队有参考价值,展示了如何将 CUDA 自定义算子移植到 Triton 并在新硬件上运行。**设计决策关注点**:选择 Triton 而非原生 SYCL 或 Level Zero,降低了开发成本但牺牲了部分性能;并行化策略的取舍(访存 vs 计算)是典型 trade-off,读者可对比仓库中其他 Triton kernel(如 `fused_moe`)的维度安排。**后续跟进**:建议作者或社区优先优化访存模式(如交换 dim/seqlen 的并行维度),并补充 Triton kernel 的单元测试。

2026-06-01
2026-05-29

#43565 [XPU] support MTP of gdn attention

原始 PR · 作者 mayuyuace · 合并时间 2026-05-29 17:10

功能 重要性 6.47 洞察度 5.00

XPU GDN 注意力支持 MTP 推测解码

该 PR 功能明确、改动集中,值得相关开发人员精读。关注的要点: - 如何将推测解码元数据从 attention metadata 提取并传递给底层内核。 - 使用局部变量统一管理内核参数的模式,便于后续扩展。 - 与 CUDA 端同类实现(参考 `qwen_gdn_linear_attn.py`)的对比可加深对跨平台一致性设计的理解。 - 自动化 review 中提出的代码质量建议虽未完全采纳,但可作为后续代码清洁的切入点。