#36599 [Bugfix] Warm up Triton autotuner for GDN layers during V1 profiling
作者 AuYang261 · 合并时间 2026-03-12 15:51
修复 GDN 层 Triton autotuner 在 V1 profiling 阶段未触发导致的 OOM 问题,确保 Qwen 模型稳定推理。
建议工程师精读此 PR,特别是关注如何在 V1 profiling 阶段预热 Triton autotuned kernels 以避免运行时内存问题。值得学习的设计决策包括 autotune key 的覆盖策略、小 tensor 预热方法,以及 review 中讨论的配置鲁棒性优化。对于处理高性能计算或内存敏感场景的开发者,此 PR 提供了实用的技术洞察。
参与讨论