#43731 [Kernel] Enable TritonW4A16LinearKernel as CUDA fallback for non-Marlin-aligned W4A16 shapes
原始 PR · 作者 lucianommartins · 合并时间 2026-05-27 18:36
Triton W4A16 内核支持 CUDA fallback
值得合并,变更简洁且目的明确。建议在后续 PR 中添加性能日志或文档说明,帮助用户了解 fallback 内核的使用情况。同时可考虑为 TritonW4A16LinearKernel 添加更细粒度的性能基准测试。
参与讨论