#7382 [Feature] 添加 MoE 层 latent mode 支持
作者 zhoutianzi666 · 合并时间 2026-04-15 13:57
为MoE层添加latent mode支持,实现输入输出的潜在空间投影。
建议工程师精读此PR以理解latent mode的实现机制,特别是参数传递链和backend集成方式。关注fastdeploy-bot指出的bug修复,学习如何避免接口不一致和运行时错误,这对设计可扩展的算子支持有借鉴价值。
High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle
作者 zhoutianzi666 · 合并时间 2026-04-15 13:57
为MoE层添加latent mode支持,实现输入输出的潜在空间投影。
建议工程师精读此PR以理解latent mode的实现机制,特别是参数传递链和backend集成方式。关注fastdeploy-bot指出的bug修复,学习如何避免接口不一致和运行时错误,这对设计可扩展的算子支持有借鉴价值。
作者 lonelygsh · 合并时间 2026-04-15 12:45
修复投机解码采样器中推理阶段令牌约束函数的参数传递错误。
该 PR 值得快速浏览,重点关注参数修正的正确性,可作为投机解码模块调试的参考案例。
作者 chang-wenbin · 合并时间 2026-04-15 11:42
将DeepSeek V3模型的DSA Indexer归一化层从RMSNorm修正为LayerNorm。
该 PR 值得精读,因为它揭示了模型实现与官方参考对齐的重要性。关注点在于归一化层选择(LayerNorm vs RMSNorm)对模型行为的影响,以及前向传播中返回值处理的适配。建议结合官方文档或测试结果验证变更的正确性。
作者 chang-wenbin · 合并时间 2026-04-15 11:42
为DeepSeek V3模型的MLA注意力机制添加门控注意力支持,新增配置项和门控层。
该PR值得精读,重点关注门控注意力的实现设计和TP维度不匹配的修复方案。建议工程师在类似功能开发中注意并行模式下的维度对齐问题,并参考review中的优化建议(如配置预读取、异常处理)。
作者 ckl117 · 合并时间 2026-04-15 11:05
修正Flash Attention V3支持的硬件架构判断条件,从SM>=89改为仅SM90。
该PR值得快速浏览,重点关注条件修改的合理性:是否基于Paddle对SM架构的实际支持情况调整?建议结合硬件文档确认SM89是否应排除。对于维护者,可参考AI Review更新PR描述以保持准确性。
作者 cmcamdy · 合并时间 2026-04-15 10:18
为 XPU 平台新增投机解码草稿令牌验证算子,支持三种验证策略。
建议精读此 PR,重点关注 XPU kernel 的实现细节(如验证策略逻辑和随机数处理),以及设计权衡(如线程安全修复)。对于从事投机解码或跨平台优化的工程师,此 PR 展示了硬件特定算子的集成模式,值得学习。
作者 lonelygsh · 合并时间 2026-04-14 20:57
修复投机解码中推理阶段状态机因step_idx语义变更导致的索引错误。
该PR值得精读,重点关注step_idx语义变更的设计决策和索引调整逻辑。建议同时review相关PR(如#7166)以理解step_idx语义变更的完整背景。注意review中提到的遗漏文件和恢复逻辑不一致问题,需确认是否在后续PR中解决。
作者 Sunny-bot1 · 合并时间 2026-04-14 20:04
为RL配置类新增MoE gate层FP32精度参数,修复训练推理精度不一致问题。
该PR变更简单直接,无需精读。值得关注的是review中关于配置默认值一致性的讨论,这反映了配置设计中的上下文差异。对于涉及RL和MoE的开发者,了解这个参数的存在和默认值即可。
参与讨论