#42236 [DSv4] Improved dequant gather K cache kernel
原始 PR · 作者 gau-nernst · 合并时间 2026-05-11 22:41
CuteDSL 重写 DSv4 K 缓存解量化收集内核,加速约 2 倍
值得精读。该 PR 清晰展示了如何用 CuteDSL 实现复杂内存搬运内核,包括 cuTe 布局、`cp.async` 多级流水线、PTX 内联汇编等技巧。派发器与回退设计也值得借鉴。对于使用 DSv4 模型的团队,此优化直接提升推理性能。
参与讨论