Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

gemma4 相关 PR

2026-06-02
性能优化 重要性 7.98 洞察度 6.00

融合 Gemma4 路由为单次 Triton kernel,decode 吞吐提升 5.6%

建议技术团队精读该 PR,尤其关注:(1) int64 键打包实现单次排序的设计技巧;(2) 如何通过条件判断保持与现有量化路径的兼容;(3) 将 vLLM 算法重写为 SGLang 代码风格的方法。对于非 Gemma4 用户,该 PR 虽不直接受益,但其 fused routing 模式可推广至其他 MoE 路由场景。

2026-05-29