性能优化
重要性 7.98
洞察度 6.00
融合 Gemma4 路由为单次 Triton kernel,decode 吞吐提升 5.6%
建议技术团队精读该 PR,尤其关注:(1) int64 键打包实现单次排序的设计技巧;(2) 如何通过条件判断保持与现有量化路径的兼容;(3) 将 vLLM 算法重写为 SGLang 代码风格的方法。对于非 Gemma4 用户,该 PR 虽不直接受益,但其 fused routing 模式可推广至其他 MoE 路由场景。