#37352 [Kernel][Hardware][AMD] Add TritonW4A16LinearKernel for ROCm
作者 jatseng-ai · 合并时间 2026-04-10 18:25
为AMD MI300 ROCm平台新增Triton W4A16 GEMM内核,支持INT4权重量化推理,提升性能。
该PR值得精读,特别是内核设计和review反馈。关注点包括:Triton JIT内核实现细节、权重处理与压缩张量集成、RDA检测和调优策略。对于内核开发和平台优化有借鉴价值。
参与讨论