默认启用 DeepGEMM PDL
此 PR 是低风险、有明确性能收益的微小优化,适合合并。建议相关工程师了解 PDL 的基本原理,以及通过环境变量控制该特性的方式。
标签列表
聚合结果
默认启用 DeepGEMM PDL
此 PR 是低风险、有明确性能收益的微小优化,适合合并。建议相关工程师了解 PDL 的基本原理,以及通过环境变量控制该特性的方式。
移除 AMD 上 compressor GEMM 的 BF16→FP32 类型转换
该 PR 值得精读,特别是对于在 AMD 平台上部署 DeepSeek-V4 模型的团队。核心设计决策(在 HIP 路径绕过昂贵的类型转换,同时在 Triton kernel 中添加显式类型处理)展示了平台特定优化的典型方法。性能数据详实,aiter 库的使用也值得关注。
升级 CPU 端 PyTorch 系列依赖至 2.12
建议 CPU 平台开发者和依赖管理者阅读该 PR,了解版本升级细节和适配方式。对于仅关注 GPU 的读者,此 PR 无直接参考价值。设计决策方面,迁移 AMX 查询到公开 API 是良好的版本兼容实践。
显式启用 x86_64 的 AVX512/AMX 指令集
该 PR 值得阅读,它展示了在构建系统中如何处理指令集兼容性。对于维护者,需要确认发布二进制是否包含这些指令集,以及对旧硬件的策略;对于使用 CPU 后端的用户,建议验证目标 CPU 的指令集支持。
MoE fused gate 内核扩展至 256 专家并优化性能
建议详细阅读 CUDA 内核实现,特别是模板化 GateConfig 和 small-token 路径的优化技巧(bank-conflict-free 写入、单 pass renorm),对 CUDA 性能优化有参考价值。测试用例的 parametrize 重构也值得学习。
修复 CPU 核中 b_ptr 索引错误
建议尽快合并。该修复为明确的 bugfix,且已有充分测试验证。对于关注 CPU 推理性能的团队值得关注。
为CPU添加GPT-OSS模型优化支持
值得精读,尤其是MoE kernel中bias和swiglu融合的设计方式、flash_attn逐行处理以支持sliding window的取舍,以及测试重构(@parametrize)模式。建议关注MXFP4路径的后续性能基准测试。
原始 PR · 作者 adityavaid · 合并时间 2026-05-29 15:09
为 Apple Silicon 添加融合 KV 缓存的 Metal RoPE 内核
建议重点关注 `MlxAOTKernelRegistry` 可扩展设计,作为后端自定义内核的注册典范。同时关注 partial RoPE 兼容性处理和环境变量开关的默认配置。值得参考 3D 线程网格优化和零拷贝 buffer 捐赠策略。