← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

Optimization · 67

bugfix · 55

Feature · 37

OP · 37

CI · 33

test · 31

infra · 30

GPU · 28

Models · 25

Others · 21

APIServer · 18

MoE · 18

Scheduler · 18

Speculative Decoding · 18

KVCache · 17

Refactor · 16

RL · 14

XPU · 14

Engine · 12

Quantization · 11

docs · 10

DataProcessor · 8

Logging · 8

Attention · 6

Benchmark · 3

Graph Optimization · 3

Iluvatar · 3

Loader · 3

FlashInfer · 2

FDConfig · 1

Metax · 1

PD Disaggregation · 1

Security · 1

聚合结果

Models 相关 PR

2026-04-16

#7428 [Feature] Support MOE Cutlass backend for latent MOE

作者 chang-wenbin · 合并时间 2026-04-16 22:11

功能重要性 6.09 洞察度 5.00

为 latent MOE 模型添加 Cutlass backend 支持，允许在 MoE 计算前后应用投影层。

Feature MoE OP Models

该 PR 值得精读，重点关注 Cutlass backend 中投影层的实现逻辑和基类接口的设计决策。建议关注 review 中讨论的兼容性风险，并考虑在后续 PR 中修复签名不一致问题。

查看完整分析 GitHub 原始 PR

#7367 [Optimization][DeepSeekV3.2]Reducing slot_mapping compute frequency from twice per layer to a single pre-processing step.

作者 ShaneGZhu · 合并时间 2026-04-16 19:54

optimization 重要性 6.40 洞察度 6.00

将 DeepSeekV3.2 模型 slot_mapping 计算从每层两次优化为单次预处理，提升推理性能约 8-14%。

Optimization Models KVCache OP

该 PR 值得精读，特别是设计决策将计算从模型层移至运行器层，展示了性能优化与代码抽象的权衡。关注 `_compute_position_ids_and_slot_mapping` 方法的实现细节，以及 review 中讨论的未解决点（如 GlmMoeDsa 兼容性），以便在其他优化中借鉴。

查看完整分析 GitHub 原始 PR

#7425 [BugFix] Fix deep gemm import

作者 RichardWooSJTU · 合并时间 2026-04-16 17:56

缺陷修复重要性 3.71 洞察度 3.00

修复DeepSeekV3模型中deep_gemm导入路径，统一使用FastDeploy内置实现。

Models Quantization bugfix

该PR变更简单直接，适合快速浏览以了解导入规范。值得关注的设计决策是统一使用项目内置工具类（fp8_utils）管理外部依赖，这种模式可推广到其他模型。

查看完整分析 GitHub 原始 PR

#6660 [Optimization] enable trtllm_all_reduce fusion kernel in glm model

作者 BingooYang · 合并时间 2026-04-16 14:10

optimization 重要性 7.97 洞察度 6.00

为 GLM 模型接入 FlashInfer 的 trtllm_allreduce_fusion 融合算子，优化分布式推理性能。

Optimization OP Models FlashInfer

建议精读此 PR，重点关注融合算子的设计实现（如 `flashinfer_comm_fusion.py` 中的 workspace 管理）、prefix 检查机制如何与模型组网集成，以及 review 中讨论的 fallback 处理权衡。

查看完整分析 GitHub 原始 PR

2026-04-15

#7378 [RL] Add clear_graph_opt_backend for glm4_mtp

作者 Deleter-D · 合并时间 2026-04-15 19:44

缺陷修复重要性 4.88 洞察度 2.00

修正拼写错误并添加clear_graph_opt_backend方法到glm4_mtp模型。

RL bugfix Models Graph Optimization

该PR值得快速浏览以了解拼写修正和模型方法扩展，但无需深入分析设计决策；关注点在于代码一致性和测试更新。

查看完整分析 GitHub 原始 PR

#7298 [DataProcessor] Refactor multimodal processor: extract encoding strategies and unify MM processing pipeline

作者 luukunn · 合并时间 2026-04-15 19:01

重构重要性 8.09 洞察度 6.00

重构多模态处理器，抽取编码策略类并统一处理流程，减少重复代码。

DataProcessor Refactor Models

该 PR 值得精读，特别是了解组合模式设计（Encoding 策略与 MultiModalProcessor 解耦）和配置驱动机制（MMModelConfig 注册表）。关注关键文件如 `multimodal_processor.py` 和 `encodings/` 目录，以及 review 中讨论的资源泄漏和边界 token 处理决策。

查看完整分析 GitHub 原始 PR

#7398 [BugFix] Fix DSA indexer normalization to use LayerNorm

作者 chang-wenbin · 合并时间 2026-04-15 11:42

缺陷修复重要性 4.64 洞察度 4.00

将DeepSeek V3模型的DSA Indexer归一化层从RMSNorm修正为LayerNorm。

Models bugfix OP

该 PR 值得精读，因为它揭示了模型实现与官方参考对齐的重要性。关注点在于归一化层选择（LayerNorm vs RMSNorm）对模型行为的影响，以及前向传播中返回值处理的适配。建议结合官方文档或测试结果验证变更的正确性。

查看完整分析 GitHub 原始 PR

#7404 [Models] support MLA gate attention

作者 chang-wenbin · 合并时间 2026-04-15 11:42

功能重要性 5.69 洞察度 5.00

为DeepSeek V3模型的MLA注意力机制添加门控注意力支持，新增配置项和门控层。

Models Feature Optimization

该PR值得精读，重点关注门控注意力的实现设计和TP维度不匹配的修复方案。建议工程师在类似功能开发中注意并行模式下的维度对齐问题，并参考review中的优化建议（如配置预读取、异常处理）。

查看完整分析 GitHub 原始 PR

第 1 / 4 页 · 共 25 条

1 2 3 4 下一页