#27035 docs: add DeepSeek V4 FP4 indexer usage
原始 PR · 作者 liz-badada · 合并时间 2026-06-04 15:44
新增 DeepSeek V4 FP4 Indexer 文档
文档清晰简洁,可以直接合并。无需精读。
标签列表
聚合结果
原始 PR · 作者 liz-badada · 合并时间 2026-06-04 15:44
新增 DeepSeek V4 FP4 Indexer 文档
文档清晰简洁,可以直接合并。无需精读。
原始 PR · 作者 yctseng0211 · 合并时间 2026-06-04 15:41
为 ROCm 7.0/gfx950 新增 CK fp8 块量化 GEMM 回退
值得合入。变更精炼、风险低,性能收益明确。关注后续 ROCm 7.2+ 上 bpreshuffle 路径与 CK 路径的调度优先级可再评估。
修复 Gemma 4 FP8 Triton scale 布局,支持行向量
推荐精读,特别是 `_as_column_scale` 的防御性设计和与入口断言的配合方式。对于需要兼容多种 scale 布局的 kernel 封装,此模式可复用。
修复 Blackwell GPU 上 DeepSeek-V4-Pro NaN 问题
此 PR 为关键 bugfix,建议尽快合入。值得关注的是作者对问题的深入诊断(外部 gist 分析),体现了底层数值问题的调试方法。
为 Mistral Large 3 启用 FlashInfer AllReduce 融合并新增 FP8 MoE 配置
对于部署 Mistral Large 3 或类似高 MoE 模型的团队,建议合并并验证。该 PR 展示了为特定模型添加性能优化支持的典型模式:模型架构识别、自动启用特性、以及提供预调优内核配置。值得关注的是其包装器架构处理逻辑,可作为后续支持多模态模型的参考。
默认启用 FP8 W_o GEMM 优化,针对 Blackwell 加速
值得阅读其降级逻辑设计,作为配置默认值切换的参考模式。该 PR 展示了如何安全地为一个架构启用优化,同时保护其他架构。
融合QKV RMSNorm并修复FP8 MoE权重加载
此PR包含两个值得关注的设计:融合Triton内核使用stride view避免拷贝,以及保守的fallback策略;加载器中的正则映射模式可复用于其他支持per-expert格式的模型。测试用例的三阶段设计(健康、非垃圾、精度)提供良好的回归保护。
原始 PR · 作者 fanxingran · 合并时间 2026-05-08 17:47
移除 Aiter 后端 FP8 KV upcast,使用原生 FP8 路径
值得精读,尤其关注 FP8 推理优化路径的开发者。核心设计决策是消除隐式 upcast,利用内核原生 FP8 支持,这是 FP8 推理的最佳实践。需确认 aiter 内核的缩放因子处理是否与当前实现一致。