← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态：已开启最近同步：2026-04-18 18:18 同步状态：空闲下次计划：2026-04-18 19:18

PR 列表

已合并 178 · 已分析 178

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-15

#7382 [Feature] 添加 MoE 层 latent mode 支持

作者 zhoutianzi666 · 合并时间 2026-04-15 13:57

功能重要性 5.83 洞察度 7.00

为MoE层添加latent mode支持，实现输入输出的潜在空间投影。

建议工程师精读此PR以理解latent mode的实现机制，特别是参数传递链和backend集成方式。关注fastdeploy-bot指出的bug修复，学习如何避免接口不一致和运行时错误，这对设计可扩展的算子支持有借鉴价值。

查看完整分析 GitHub 原始 PR FeatureMoEOP

#7402 [Speculate Decoding] Fix reasoning_phase_token_constraint call args in SpeculativeSampler

作者 lonelygsh · 合并时间 2026-04-15 12:45

缺陷修复重要性 3.45 洞察度 3.00

修复投机解码采样器中推理阶段令牌约束函数的参数传递错误。

该 PR 值得快速浏览，重点关注参数修正的正确性，可作为投机解码模块调试的参考案例。

查看完整分析 GitHub 原始 PR Speculative DecodingbugfixOP

#7398 [BugFix] Fix DSA indexer normalization to use LayerNorm

作者 chang-wenbin · 合并时间 2026-04-15 11:42

缺陷修复重要性 4.64 洞察度 4.00

将DeepSeek V3模型的DSA Indexer归一化层从RMSNorm修正为LayerNorm。

该 PR 值得精读，因为它揭示了模型实现与官方参考对齐的重要性。关注点在于归一化层选择（LayerNorm vs RMSNorm）对模型行为的影响，以及前向传播中返回值处理的适配。建议结合官方文档或测试结果验证变更的正确性。

查看完整分析 GitHub 原始 PR ModelsbugfixOP

#7404 [Models] support MLA gate attention

作者 chang-wenbin · 合并时间 2026-04-15 11:42

功能重要性 5.69 洞察度 5.00

为DeepSeek V3模型的MLA注意力机制添加门控注意力支持，新增配置项和门控层。

该PR值得精读，重点关注门控注意力的实现设计和TP维度不匹配的修复方案。建议工程师在类似功能开发中注意并行模式下的维度对齐问题，并参考review中的优化建议（如配置预读取、异常处理）。

查看完整分析 GitHub 原始 PR ModelsFeatureOptimization

#7399 [RL] check init_flash_attn_version log

作者 ckl117 · 合并时间 2026-04-15 11:05

缺陷修复重要性 3.53 洞察度 3.00

修正Flash Attention V3支持的硬件架构判断条件，从SM>=89改为仅SM90。

该PR值得快速浏览，重点关注条件修改的合理性：是否基于Paddle对SM架构的实际支持情况调整？建议结合硬件文档确认SM89是否应排除。对于维护者，可参考AI Review更新PR描述以保持准确性。

查看完整分析 GitHub 原始 PR RLbugfixOptimization

#6947 [XPU] add verify draft tokens

作者 cmcamdy · 合并时间 2026-04-15 10:18

功能重要性 7.50 洞察度 5.00

为 XPU 平台新增投机解码草稿令牌验证算子，支持三种验证策略。

建议精读此 PR，重点关注 XPU kernel 的实现细节（如验证策略逻辑和随机数处理），以及设计权衡（如线程安全修复）。对于从事投机解码或跨平台优化的工程师，此 PR 展示了硬件特定算子的集成模式，值得学习。

查看完整分析 GitHub 原始 PR XPUOPSpeculative Decoding

2026-04-14

#7349 [Speculate Decoding] Fix step_idx semantics in reasoning_phase_token_constraint and speculate set_value kernels

作者 lonelygsh · 合并时间 2026-04-14 20:57

缺陷修复重要性 6.00 洞察度 5.00

修复投机解码中推理阶段状态机因step_idx语义变更导致的索引错误。

该PR值得精读，重点关注step_idx语义变更的设计决策和索引调整逻辑。建议同时review相关PR（如#7166）以理解step_idx语义变更的完整背景。注意review中提到的遗漏文件和恢复逻辑不一致问题，需确认是否在后续PR中解决。

查看完整分析 GitHub 原始 PR Speculative DecodingOPbugfix

#7393 [BugFix] Fix RL moe gate type

作者 Sunny-bot1 · 合并时间 2026-04-14 20:04

缺陷修复重要性 3.00 洞察度 2.00

为RL配置类新增MoE gate层FP32精度参数，修复训练推理精度不一致问题。

该PR变更简单直接，无需精读。值得关注的是review中关于配置默认值一致性的讨论，这反映了配置设计中的上下文差异。对于涉及RL和MoE的开发者，了解这个参数的存在和默认值即可。

查看完整分析 GitHub 原始 PR RLMoEbugfix

第 4 / 23 页 · 共 178 条

上一页 1 2 3 4 5 … 23 下一页

支持 Prhub ♥