#7428 [Feature] Support MOE Cutlass backend for latent MOE
作者 chang-wenbin · 合并时间 2026-04-16 22:11
为 latent MOE 模型添加 Cutlass backend 支持,允许在 MoE 计算前后应用投影层。
该 PR 值得精读,重点关注 Cutlass backend 中投影层的实现逻辑和基类接口的设计决策。建议关注 review 中讨论的兼容性风险,并考虑在后续 PR 中修复签名不一致问题。
标签列表
聚合结果
作者 chang-wenbin · 合并时间 2026-04-16 22:11
为 latent MOE 模型添加 Cutlass backend 支持,允许在 MoE 计算前后应用投影层。
该 PR 值得精读,重点关注 Cutlass backend 中投影层的实现逻辑和基类接口的设计决策。建议关注 review 中讨论的兼容性风险,并考虑在后续 PR 中修复签名不一致问题。
作者 ShaneGZhu · 合并时间 2026-04-16 19:54
将 DeepSeekV3.2 模型 slot_mapping 计算从每层两次优化为单次预处理,提升推理性能约 8-14%。
该 PR 值得精读,特别是设计决策将计算从模型层移至运行器层,展示了性能优化与代码抽象的权衡。关注 `_compute_position_ids_and_slot_mapping` 方法的实现细节,以及 review 中讨论的未解决点(如 GlmMoeDsa 兼容性),以便在其他优化中借鉴。
作者 RichardWooSJTU · 合并时间 2026-04-16 17:56
修复DeepSeekV3模型中deep_gemm导入路径,统一使用FastDeploy内置实现。
该PR变更简单直接,适合快速浏览以了解导入规范。值得关注的设计决策是统一使用项目内置工具类(fp8_utils)管理外部依赖,这种模式可推广到其他模型。
作者 BingooYang · 合并时间 2026-04-16 14:10
为 GLM 模型接入 FlashInfer 的 trtllm_allreduce_fusion 融合算子,优化分布式推理性能。
建议精读此 PR,重点关注融合算子的设计实现(如 `flashinfer_comm_fusion.py` 中的 workspace 管理)、prefix 检查机制如何与模型组网集成,以及 review 中讨论的 fallback 处理权衡。
作者 Deleter-D · 合并时间 2026-04-15 19:44
修正拼写错误并添加clear_graph_opt_backend方法到glm4_mtp模型。
该PR值得快速浏览以了解拼写修正和模型方法扩展,但无需深入分析设计决策;关注点在于代码一致性和测试更新。
作者 luukunn · 合并时间 2026-04-15 19:01
重构多模态处理器,抽取编码策略类并统一处理流程,减少重复代码。
该 PR 值得精读,特别是了解组合模式设计(Encoding 策略与 MultiModalProcessor 解耦)和配置驱动机制(MMModelConfig 注册表)。关注关键文件如 `multimodal_processor.py` 和 `encodings/` 目录,以及 review 中讨论的资源泄漏和边界 token 处理决策。
作者 chang-wenbin · 合并时间 2026-04-15 11:42
将DeepSeek V3模型的DSA Indexer归一化层从RMSNorm修正为LayerNorm。
该 PR 值得精读,因为它揭示了模型实现与官方参考对齐的重要性。关注点在于归一化层选择(LayerNorm vs RMSNorm)对模型行为的影响,以及前向传播中返回值处理的适配。建议结合官方文档或测试结果验证变更的正确性。
作者 chang-wenbin · 合并时间 2026-04-15 11:42
为DeepSeek V3模型的MLA注意力机制添加门控注意力支持,新增配置项和门控层。
该PR值得精读,重点关注门控注意力的实现设计和TP维度不匹配的修复方案。建议工程师在类似功能开发中注意并行模式下的维度对齐问题,并参考review中的优化建议(如配置预读取、异常处理)。