#7428 [Feature] Support MOE Cutlass backend for latent MOE
作者 chang-wenbin · 合并时间 2026-04-16 22:11
为 latent MOE 模型添加 Cutlass backend 支持,允许在 MoE 计算前后应用投影层。
该 PR 值得精读,重点关注 Cutlass backend 中投影层的实现逻辑和基类接口的设计决策。建议关注 review 中讨论的兼容性风险,并考虑在后续 PR 中修复签名不一致问题。
标签列表
聚合结果
作者 chang-wenbin · 合并时间 2026-04-16 22:11
为 latent MOE 模型添加 Cutlass backend 支持,允许在 MoE 计算前后应用投影层。
该 PR 值得精读,重点关注 Cutlass backend 中投影层的实现逻辑和基类接口的设计决策。建议关注 review 中讨论的兼容性风险,并考虑在后续 PR 中修复签名不一致问题。
作者 zhoutianzi666 · 合并时间 2026-04-15 13:57
为MoE层添加latent mode支持,实现输入输出的潜在空间投影。
建议工程师精读此PR以理解latent mode的实现机制,特别是参数传递链和backend集成方式。关注fastdeploy-bot指出的bug修复,学习如何避免接口不一致和运行时错误,这对设计可扩展的算子支持有借鉴价值。
作者 Sunny-bot1 · 合并时间 2026-04-14 20:04
为RL配置类新增MoE gate层FP32精度参数,修复训练推理精度不一致问题。
该PR变更简单直接,无需精读。值得关注的是review中关于配置默认值一致性的讨论,这反映了配置设计中的上下文差异。对于涉及RL和MoE的开发者,了解这个参数的存在和默认值即可。
作者 zhupengyang · 合并时间 2026-04-14 11:31
为XPU平台添加GLM-4.5-air模型支持,优化MoE算子和RoPE实现。
建议技术管理者和工程师精读此PR,重点关注fused_noaux_tc算子的breaking change处理、RoPE优化设计以及版本稳定性权衡。工程师应检查下游依赖是否适配,并考虑采纳版本具体化建议以降低风险。
作者 zhoutianzi666 · 合并时间 2026-04-13 20:24
为FusedMoE添加显式hidden_size参数,解耦对配置的依赖,提高灵活性。
建议**中等精读**。值得关注的设计决策在于从隐式依赖配置改为显式参数传递的解耦模式,这是提高代码模块化的常见手法。特别需注意review中未解决的`hidden_size`默认值风险,在后续开发或评审类似改动时应考虑添加参数验证或更安全的默认策略。
作者 liuruyan · 合并时间 2026-04-13 15:01
新增环境变量支持FP8量化使用pow2scale模式,以对齐训练推理一致性。
建议关注量化模式控制的设计决策,特别是环境变量与现有quant_config的整合方式,以及review中提到的逻辑不一致问题,以理解如何维护代码一致性和正确性。此PR值得精读,可学习训练推理对齐的实现模式。
作者 zhoutianzi666 · 合并时间 2026-04-11 22:39
优化MoE层属性访问,使用缓存的self.hidden_size替代嵌套配置访问。
该PR变更简单直接,属于常规代码优化,无需深入精读。值得关注的点是: 1. 展示了在性能敏感代码中避免重复嵌套访问的设计模式。 2. 提醒了在修改代码时需同步更新相关测试的实践。 建议工程师在类似场景中参考这种将配置属性缓存到类成员的做法。
作者 ckl117 · 合并时间 2026-04-11 21:51
为MoE BF16 EP prefill阶段添加Paddle batched_gemm支持,对齐训练实现。
建议技术管理者和工程师精读此PR,重点关注: 1. **设计决策**:为何选择batched_gemm而非原有compute_ffn,以及如何权衡CUDAGraph兼容性。 2. **风险点**:down_proj_bias处理缺失和外部依赖函数可用性,需确认是否在后续提交中修复。 3. **测试补充**:建议添加FD_MOE_PROB_IN_ADVANCE相关的单元测试,确保新路径正确性。 PR展示了推理与训练对齐的典型模式,值得学习其实现思路。