#44393 [Attention][CPU] Standardize kv layout to blocks first
原始 PR · 作者 bigPYJ1151 · 合并时间 2026-06-03 19:03
标准化 CPU KV cache 布局为 blocks-first
建议精读以了解 KV cache 布局标准化的实现方式。对于 CPU 后端开发者,此变更是朝着统一后端接口迈出的重要一步;对于其他后端开发者,可作为参考。
标签列表
聚合结果
原始 PR · 作者 bigPYJ1151 · 合并时间 2026-06-03 19:03
标准化 CPU KV cache 布局为 blocks-first
建议精读以了解 KV cache 布局标准化的实现方式。对于 CPU 后端开发者,此变更是朝着统一后端接口迈出的重要一步;对于其他后端开发者,可作为参考。
为CPU/CUTLASS/WNA16 MoE后端添加GELU_TANH激活支持
值得精读,尤其是 WNA16 中从硬编码断言到动态传递 activation 的设计决策,以及 CPU C++ 中添加新激活的完整流程——枚举、解析、kernel 实现、分发函数。可作为后续扩展其他激活的参考模板。
原始 PR · 作者 Rukhaiya2004 · 合并时间 2026-06-02 18:06
为 PowerPC 启用 SHM 通信器支持
值得关注的设计决策: - 采用条件宏而非抽象接口扩展平台支持,保持了最小改动量,适合成熟模块的横向移植。 - 通过新增 `FP16Vec16` 类型而非修改原有类型转换逻辑,避免了影响 x86/ARM 的代码路径。 - 自旋等待指令的低级优化体现了对微架构特性的深入理解,可作为跨平台 busy-wait 模式的参考。 建议后续为 PowerPC 添加 CI 运行或至少补充集成测试,以确保长期兼容性。
CPU GDN 融合内核性能提升 50%
值得精读,特别关注其 ISA 无关的 BLAS 回退架构和编译时分支策略,该模式可推广至其他需要跨平台性能优化的算子。建议阅读文件:`csrc/cpu/sgl-kernels/blas_gemm.h` 和 `gemm.h` 中的 `brgemm_supported` 设计。
为RISC-V CPU添加WNA16量化所需RVV向量辅助函数
对于关注RISC-V后端或CPU量化路径的读者,本PR展示了如何扩展`cpu_types`以支持新ISA,特别是使用RVV vrgather优化LUT查表的模式值得学习。建议精读`cpu_types_riscv_impl.hpp`中的新构造函数和`interleave_save`实现。
AMD Zen CPU 上 zentorch 加速 W8A8/W4A16 线性层
值得精读,尤其是 kernel 选择器 fallback 设计、平台检测函数抽象以及量化权重兼容性检查。建议在后续 PR 中考虑引入 `PlatformEnum.ZEN` 并增加端到端集成测试。
原始 PR · 作者 bigPYJ1151 · 合并时间 2026-05-29 22:02
移除 CPU 构建中无效的 triton-cpu 依赖
值得精读,尤其是学习如何将不稳定的外部依赖从 Python 包声明迁移到容器构建阶段,以提高跨平台兼容性。Docker 多阶段构建中条件化构建外部依赖的技巧具有通用参考价值。
CPU top-k/top-p 采样切换到 Triton 实现
本 PR 虽改动量小,但展示了在 CPU 后端使用 Triton 的典型模式:调整 block size、条件编译、集成测试。值得关注其设计权衡和 CI 集成方式。建议阅读以了解 vLLM CPU 后端的优化方向。