Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

fp8 相关 PR

2026-06-04
2026-05-20

#25286 [Gemma4]: Fix FP8 Triton scale layout

原始 PR · 作者 Ratish1 · 合并时间 2026-05-20 05:00

缺陷修复 重要性 6.16 洞察度 6.00

修复 Gemma 4 FP8 Triton scale 布局,支持行向量

推荐精读,特别是 `_as_column_scale` 的防御性设计和与入口断言的配合方式。对于需要兼容多种 scale 布局的 kernel 封装,此模式可复用。

2026-05-19

#24611 [Codex] Opt Mistral Large performace

原始 PR · 作者 BBuf · 合并时间 2026-05-19 10:59

性能优化 重要性 5.99 洞察度 4.00

为 Mistral Large 3 启用 FlashInfer AllReduce 融合并新增 FP8 MoE 配置

对于部署 Mistral Large 3 或类似高 MoE 模型的团队,建议合并并验证。该 PR 展示了为特定模型添加性能优化支持的典型模式:模型架构识别、自动启用特性、以及提供预调优内核配置。值得关注的是其包装器架构处理逻辑,可作为后续支持多模态模型的参考。

2026-05-15

#25181 Enable SGLANG_OPT_FP8_WO_A_GEMM by default

原始 PR · 作者 yhyang201 · 合并时间 2026-05-15 02:09

性能优化 重要性 6.15 洞察度 4.00

默认启用 FP8 W_o GEMM 优化,针对 Blackwell 加速

值得阅读其降级逻辑设计,作为配置默认值切换的参考模式。该 PR 展示了如何安全地为一个架构启用优化,同时保护其他架构。

2026-05-10
性能优化 重要性 8.42 洞察度 7.00

融合QKV RMSNorm并修复FP8 MoE权重加载

此PR包含两个值得关注的设计:融合Triton内核使用stride view避免拷贝,以及保守的fallback策略;加载器中的正则映射模式可复用于其他支持per-expert格式的模型。测试用例的三阶段设计(健康、非垃圾、精度)提供良好的回归保护。

2026-05-08
重构 重要性 6.90 洞察度 6.00

移除 Aiter 后端 FP8 KV upcast,使用原生 FP8 路径

值得精读,尤其关注 FP8 推理优化路径的开发者。核心设计决策是消除隐式 upcast,利用内核原生 FP8 支持,这是 FP8 推理的最佳实践。需确认 aiter 内核的缩放因子处理是否与当前实现一致。