Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 18:18 同步状态:空闲 下次计划:2026-04-18 19:18

PR 列表

已合并 178 · 已分析 178
更多筛选
2026-04-15

#7382 [Feature] 添加 MoE 层 latent mode 支持

作者 zhoutianzi666 · 合并时间 2026-04-15 13:57

功能 重要性 5.83 洞察度 7.00

为MoE层添加latent mode支持,实现输入输出的潜在空间投影。

建议工程师精读此PR以理解latent mode的实现机制,特别是参数传递链和backend集成方式。关注fastdeploy-bot指出的bug修复,学习如何避免接口不一致和运行时错误,这对设计可扩展的算子支持有借鉴价值。

缺陷修复 重要性 4.64 洞察度 4.00

将DeepSeek V3模型的DSA Indexer归一化层从RMSNorm修正为LayerNorm。

该 PR 值得精读,因为它揭示了模型实现与官方参考对齐的重要性。关注点在于归一化层选择(LayerNorm vs RMSNorm)对模型行为的影响,以及前向传播中返回值处理的适配。建议结合官方文档或测试结果验证变更的正确性。

#7404 [Models] support MLA gate attention

作者 chang-wenbin · 合并时间 2026-04-15 11:42

功能 重要性 5.69 洞察度 5.00

为DeepSeek V3模型的MLA注意力机制添加门控注意力支持,新增配置项和门控层。

该PR值得精读,重点关注门控注意力的实现设计和TP维度不匹配的修复方案。建议工程师在类似功能开发中注意并行模式下的维度对齐问题,并参考review中的优化建议(如配置预读取、异常处理)。

#7399 [RL] check init_flash_attn_version log

作者 ckl117 · 合并时间 2026-04-15 11:05

缺陷修复 重要性 3.53 洞察度 3.00

修正Flash Attention V3支持的硬件架构判断条件,从SM>=89改为仅SM90。

该PR值得快速浏览,重点关注条件修改的合理性:是否基于Paddle对SM架构的实际支持情况调整?建议结合硬件文档确认SM89是否应排除。对于维护者,可参考AI Review更新PR描述以保持准确性。

#6947 [XPU] add verify draft tokens

作者 cmcamdy · 合并时间 2026-04-15 10:18

功能 重要性 7.50 洞察度 5.00

为 XPU 平台新增投机解码草稿令牌验证算子,支持三种验证策略。

建议精读此 PR,重点关注 XPU kernel 的实现细节(如验证策略逻辑和随机数处理),以及设计权衡(如线程安全修复)。对于从事投机解码或跨平台优化的工程师,此 PR 展示了硬件特定算子的集成模式,值得学习。

2026-04-14
缺陷修复 重要性 6.00 洞察度 5.00

修复投机解码中推理阶段状态机因step_idx语义变更导致的索引错误。

该PR值得精读,重点关注step_idx语义变更的设计决策和索引调整逻辑。建议同时review相关PR(如#7166)以理解step_idx语义变更的完整背景。注意review中提到的遗漏文件和恢复逻辑不一致问题,需确认是否在后续PR中解决。

#7393 [BugFix] Fix RL moe gate type

作者 Sunny-bot1 · 合并时间 2026-04-14 20:04

缺陷修复 重要性 3.00 洞察度 2.00

为RL配置类新增MoE gate层FP32精度参数,修复训练推理精度不一致问题。

该PR变更简单直接,无需精读。值得关注的是review中关于配置默认值一致性的讨论,这反映了配置设计中的上下文差异。对于涉及RL和MoE的开发者,了解这个参数的存在和默认值即可。

参与讨论