#20755 Use FlashInfer tinygemm for GPT-OSS MoE router on SM90+
作者 mmangkad · 合并时间 2026-03-25 06:00
在 SM90+ GPU 上使用 FlashInfer tinygemm 优化 GPT-OSS MoE router,提升推理性能。
建议工程师精读此 PR,学习如何集成外部高性能内核并设计条件回退机制。重点关注 TinyGemmLinear 类的条件缓存设计、性能基准测试方法,以及 review 中关于扩展性和优化权衡的讨论。
参与讨论