← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

Optimization · 67

bugfix · 55

Feature · 37

OP · 37

CI · 33

test · 31

infra · 30

GPU · 28

Models · 25

Others · 21

APIServer · 18

MoE · 18

Scheduler · 18

Speculative Decoding · 18

KVCache · 17

Refactor · 16

RL · 14

XPU · 14

Engine · 12

Quantization · 11

docs · 10

DataProcessor · 8

Logging · 8

Attention · 6

Benchmark · 3

Graph Optimization · 3

Iluvatar · 3

Loader · 3

FlashInfer · 2

FDConfig · 1

Metax · 1

PD Disaggregation · 1

Security · 1

聚合结果

Optimization 相关 PR

2026-04-17

#7416 [KVCache] Mooncake storage register local buffer by chunk

作者 juncaipeng · 合并时间 2026-04-17 10:39

功能重要性 5.01 洞察度 5.00

为 Mooncake KVCache 存储后端实现大缓冲区分块注册，支持超过 RDMA MR 大小限制的场景。

KVCache Feature Optimization infra

该 PR 值得精读，重点关注分块注册的设计决策、环境变量处理机制以及 review 中讨论的未解决疑虑（如资源泄漏、对齐问题）。建议结合后续 PR 观察是否补充错误处理和测试。

查看完整分析 GitHub 原始 PR

2026-04-16

#7367 [Optimization][DeepSeekV3.2]Reducing slot_mapping compute frequency from twice per layer to a single pre-processing step.

作者 ShaneGZhu · 合并时间 2026-04-16 19:54

optimization 重要性 6.40 洞察度 6.00

将 DeepSeekV3.2 模型 slot_mapping 计算从每层两次优化为单次预处理，提升推理性能约 8-14%。

Optimization Models KVCache OP

该 PR 值得精读，特别是设计决策将计算从模型层移至运行器层，展示了性能优化与代码抽象的权衡。关注 `_compute_position_ids_and_slot_mapping` 方法的实现细节，以及 review 中讨论的未解决点（如 GlmMoeDsa 兼容性），以便在其他优化中借鉴。

查看完整分析 GitHub 原始 PR

#7426 [Engine] Allow parallel dp starting

作者 RichardWooSJTU · 合并时间 2026-04-16 18:43

optimization 重要性 4.10 洞察度 4.00

将数据并行进程启动从串行改为并行，优化启动性能。

Engine Optimization infra

此PR值得快速浏览，了解如何通过并行化优化启动流程。重点关注`launch_components`方法的修改，并思考是否需要在团队代码规范中补充超时机制。

查看完整分析 GitHub 原始 PR

#6798 [XPU] Split the block_attn operator into smaller operators

作者 RuohengMa · 合并时间 2026-04-16 14:28

性能优化重要性 7.69 洞察度 5.00

将 XPU 平台的 block_attn 算子拆分为可独立控制的 spliced 版本，提升优化灵活性。

XPU Optimization OP test

建议技术管理者关注此 PR 的设计决策：如何通过环境变量实现渐进式优化，以及兼容性处理策略。工程师可精读 `block_attn_spliced.cc` 了解 spliced 算子拆分逻辑，并参考 `test_block_attn.py` 学习数值验证方法，同时注意 review 中提到的 bug 和依赖风险。

查看完整分析 GitHub 原始 PR

#6660 [Optimization] enable trtllm_all_reduce fusion kernel in glm model

作者 BingooYang · 合并时间 2026-04-16 14:10

optimization 重要性 7.97 洞察度 6.00

为 GLM 模型接入 FlashInfer 的 trtllm_allreduce_fusion 融合算子，优化分布式推理性能。

Optimization OP Models FlashInfer

建议精读此 PR，重点关注融合算子的设计实现（如 `flashinfer_comm_fusion.py` 中的 workspace 管理）、prefix 检查机制如何与模型组网集成，以及 review 中讨论的 fallback 处理权衡。

查看完整分析 GitHub 原始 PR

2026-04-15

#7237 [Optimization] Auto set num_max_dispatch_tokens_per_rank

作者 RichardWooSJTU · 合并时间 2026-04-15 19:13

基础设施重要性 4.54 洞察度 4.00

自动设置num_max_dispatch_tokens_per_rank参数，基于投机解码状态优化配置。

Optimization Speculative Decoding infra

建议精读以了解FastDeploy配置自动化的设计模式，特别是如何处理投机解码相关参数的动态计算。关注变量作用域和日志记录的最佳实践。

查看完整分析 GitHub 原始 PR

#7404 [Models] support MLA gate attention

作者 chang-wenbin · 合并时间 2026-04-15 11:42

功能重要性 5.69 洞察度 5.00

为DeepSeek V3模型的MLA注意力机制添加门控注意力支持，新增配置项和门控层。

Models Feature Optimization

该PR值得精读，重点关注门控注意力的实现设计和TP维度不匹配的修复方案。建议工程师在类似功能开发中注意并行模式下的维度对齐问题，并参考review中的优化建议（如配置预读取、异常处理）。

查看完整分析 GitHub 原始 PR

#7399 [RL] check init_flash_attn_version log

作者 ckl117 · 合并时间 2026-04-15 11:05

缺陷修复重要性 3.53 洞察度 3.00

修正Flash Attention V3支持的硬件架构判断条件，从SM>=89改为仅SM90。

RL bugfix Optimization

该PR值得快速浏览，重点关注条件修改的合理性：是否基于Paddle对SM架构的实际支持情况调整？建议结合硬件文档确认SM89是否应排除。对于维护者，可参考AI Review更新PR描述以保持准确性。

查看完整分析 GitHub 原始 PR

第 1 / 9 页 · 共 67 条

1 2 3 4 5 … 9 下一页