#39984 [XPU]fake impl for xpu fp8_gemm
作者 xinyu-intel · 合并时间 2026-04-18 08:53
为 XPU 平台添加 fp8_gemm 的假实现以支持 torch.compile。
此 PR 值得关注其假实现的设计模式,但需注意形状处理可能存在的风险。建议阅读 `vllm/_xpu_ops.py` 文件,了解如何为自定义算子注册假实现以支持 torch.compile。
标签列表
聚合结果
作者 xinyu-intel · 合并时间 2026-04-18 08:53
为 XPU 平台添加 fp8_gemm 的假实现以支持 torch.compile。
此 PR 值得关注其假实现的设计模式,但需注意形状处理可能存在的风险。建议阅读 `vllm/_xpu_ops.py` 文件,了解如何为自定义算子注册假实现以支持 torch.compile。
作者 mgoin · 合并时间 2026-04-18 07:42
为SM100 Blackwell设备添加MXFP4 W4A4 CUTLASS MoE内核,支持量化激活与权重的高效推理。
该PR值得核心内核和框架工程师精读,以理解MXFP4量化方案在MoE中的实现细节。重点关注`cutlass_moe.py`中的`run_cutlass_moe_mxfp4`函数如何协调量化、计算与尺度处理,以及`compressed_tensors_moe_w4a4_mxfp4.py`中的后端自动选择设计,这些决策对系统扩展性和性能优化有重要影响。
作者 aditi-amd · 合并时间 2026-04-18 04:08
修复 ROCm 平台上 TurboQuant 的后端路由、flash-attn 兼容性和 int64 溢出问题。
该 PR 值得精读,特别是如何通过最小化代码变更解决平台特定 API 不兼容性,以及后端路由的设计决策。关注 `turboquant_attn.py` 中的注意力逻辑调整和 `rocm.py` 中的路由实现,这些展示了跨平台适配的实用技巧。
作者 xinyu-intel · 合并时间 2026-04-18 00:55
在XPU上跳过fp8e4b15格式,扩展TurboQuant测试到XPU平台。
建议阅读此PR以了解如何扩展平台抽象支持,特别是设备检测和格式选择的设计决策,适用于处理多平台兼容性场景。
作者 sychen52 · 合并时间 2026-04-17 22:28
添加 NVFP4 量化支持到 KV 缓存,扩展 reshape_and_cache_flash 功能。
该 PR 值得精读,特别是 NVFP4 量化布局设计([k_data, k_scale, v_data, v_scale] 确保连续内存)和工具函数拆分逻辑,这些决策影响 kernel 实现和性能。关注 FlashInfer 后端的集成方式,以及 decode 路径不完整的后续处理。建议工程师了解新数据类型的添加流程和测试覆盖方法。
作者 maralbahari · 合并时间 2026-04-17 18:20
将 Marlin 内核加入 FP8 块缩放矩阵乘内核选择列表,修复 A100 等设备上 FP8 模型加载失败问题。
该 PR 值得精读,特别是内核选择逻辑的调整和 `issubclass` 检查的使用,展示了在量化内核调度中处理异构内核接口的常见模式。关注 `init_fp8_linear_kernel` 函数中条件分支的设计,以及类型注解的更新如何反映内核类型的演进。
作者 Josephasafg · 合并时间 2026-04-17 04:12
整合 INT8 专家量化到 FP8 在线量化框架,提取公共基类并支持新 CLI 参数。
建议技术管理者和工程师精读此 PR,重点关注 `OnlineMoEMethodBase` 的设计决策,它统一了在线 MoE 量化的元设备处理流程,体现了面向对象重构的优点;同时注意 review 中讨论的除零风险和命名清晰性,这些是量化系统中的常见陷阱。
作者 vkuzo · 合并时间 2026-04-16 22:52
新增在线量化功能文档,说明FP8量化方案及高级配置。
该PR是纯文档更新,对于想了解或使用vLLM在线量化功能的用户和开发者值得一读。重点关注文档中关于 `quantization` 和 `quantization_config` 参数的正确用法,以及高级配置如 `linear_scheme_override`、`moe_scheme_override` 和 `ignore` 列表的示例。这些设计决策反映了在线量化前端的灵活性和可配置性。