#22844 [AMD] Optimize _append_shared_to_topk_output by a single fused Triton kernel for Qwen3.5
原始 PR · 作者 hubertlu-tw · 合并时间 2026-04-15 14:50
为AMD平台Qwen3.5 MoE模型优化共享专家追加逻辑,用单个Triton内核融合4次内核启动以提升路由性能。
该PR值得精读,特别是对于关注高性能计算和MoE模型优化的工程师。重点关注新增的Triton内核设计,它展示了如何将多个独立操作融合为单次启动以减少开销,同时保留逐token权重的精度要求。此外,注意其平台特定性(AMD/AITER),这反映了项目中对不同硬件后端的差异化优化策略。
参与讨论