Prhub
← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

聚合结果

Optimization 相关 PR

2026-04-17

#7416 [KVCache] Mooncake storage register local buffer by chunk

作者 juncaipeng · 合并时间 2026-04-17 10:39

功能 重要性 5.01 洞察度 5.00

为 Mooncake KVCache 存储后端实现大缓冲区分块注册,支持超过 RDMA MR 大小限制的场景。

KVCache Feature Optimization infra

该 PR 值得精读,重点关注分块注册的设计决策、环境变量处理机制以及 review 中讨论的未解决疑虑(如资源泄漏、对齐问题)。建议结合后续 PR 观察是否补充错误处理和测试。

2026-04-16
optimization 重要性 6.40 洞察度 6.00

将 DeepSeekV3.2 模型 slot_mapping 计算从每层两次优化为单次预处理,提升推理性能约 8-14%。

Optimization Models KVCache OP

该 PR 值得精读,特别是设计决策将计算从模型层移至运行器层,展示了性能优化与代码抽象的权衡。关注 `_compute_position_ids_and_slot_mapping` 方法的实现细节,以及 review 中讨论的未解决点(如 GlmMoeDsa 兼容性),以便在其他优化中借鉴。

#7426 [Engine] Allow parallel dp starting

作者 RichardWooSJTU · 合并时间 2026-04-16 18:43

optimization 重要性 4.10 洞察度 4.00

将数据并行进程启动从串行改为并行,优化启动性能。

Engine Optimization infra

此PR值得快速浏览,了解如何通过并行化优化启动流程。重点关注`launch_components`方法的修改,并思考是否需要在团队代码规范中补充超时机制。

#6798 [XPU] Split the block_attn operator into smaller operators

作者 RuohengMa · 合并时间 2026-04-16 14:28

性能优化 重要性 7.69 洞察度 5.00

将 XPU 平台的 block_attn 算子拆分为可独立控制的 spliced 版本,提升优化灵活性。

XPU Optimization OP test

建议技术管理者关注此 PR 的设计决策:如何通过环境变量实现渐进式优化,以及兼容性处理策略。工程师可精读 `block_attn_spliced.cc` 了解 spliced 算子拆分逻辑,并参考 `test_block_attn.py` 学习数值验证方法,同时注意 review 中提到的 bug 和依赖风险。

#6660 [Optimization] enable trtllm_all_reduce fusion kernel in glm model

作者 BingooYang · 合并时间 2026-04-16 14:10

optimization 重要性 7.97 洞察度 6.00

为 GLM 模型接入 FlashInfer 的 trtllm_allreduce_fusion 融合算子,优化分布式推理性能。

Optimization OP Models FlashInfer

建议精读此 PR,重点关注融合算子的设计实现(如 `flashinfer_comm_fusion.py` 中的 workspace 管理)、prefix 检查机制如何与模型组网集成,以及 review 中讨论的 fallback 处理权衡。

2026-04-15

#7237 [Optimization] Auto set num_max_dispatch_tokens_per_rank

作者 RichardWooSJTU · 合并时间 2026-04-15 19:13

基础设施 重要性 4.54 洞察度 4.00

自动设置num_max_dispatch_tokens_per_rank参数,基于投机解码状态优化配置。

Optimization Speculative Decoding infra

建议精读以了解FastDeploy配置自动化的设计模式,特别是如何处理投机解码相关参数的动态计算。关注变量作用域和日志记录的最佳实践。

#7404 [Models] support MLA gate attention

作者 chang-wenbin · 合并时间 2026-04-15 11:42

功能 重要性 5.69 洞察度 5.00

为DeepSeek V3模型的MLA注意力机制添加门控注意力支持,新增配置项和门控层。

Models Feature Optimization

该PR值得精读,重点关注门控注意力的实现设计和TP维度不匹配的修复方案。建议工程师在类似功能开发中注意并行模式下的维度对齐问题,并参考review中的优化建议(如配置预读取、异常处理)。

#7399 [RL] check init_flash_attn_version log

作者 ckl117 · 合并时间 2026-04-15 11:05

缺陷修复 重要性 3.53 洞察度 3.00

修正Flash Attention V3支持的硬件架构判断条件,从SM>=89改为仅SM90。

RL bugfix Optimization

该PR值得快速浏览,重点关注条件修改的合理性:是否基于Paddle对SM架构的实际支持情况调整?建议结合硬件文档确认SM89是否应排除。对于维护者,可参考AI Review更新PR描述以保持准确性。