← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

Optimization · 67

bugfix · 55

Feature · 37

OP · 37

CI · 33

test · 31

infra · 30

GPU · 28

Models · 25

Others · 21

APIServer · 18

MoE · 18

Scheduler · 18

Speculative Decoding · 18

KVCache · 17

Refactor · 16

RL · 14

XPU · 14

Engine · 12

Quantization · 11

docs · 10

DataProcessor · 8

Logging · 8

Attention · 6

Benchmark · 3

Graph Optimization · 3

Iluvatar · 3

Loader · 3

FlashInfer · 2

FDConfig · 1

Metax · 1

PD Disaggregation · 1

Security · 1

聚合结果

KVCache 相关 PR

2026-04-17

#7416 [KVCache] Mooncake storage register local buffer by chunk

作者 juncaipeng · 合并时间 2026-04-17 10:39

功能重要性 5.01 洞察度 5.00

为 Mooncake KVCache 存储后端实现大缓冲区分块注册，支持超过 RDMA MR 大小限制的场景。

KVCache Feature Optimization infra

该 PR 值得精读，重点关注分块注册的设计决策、环境变量处理机制以及 review 中讨论的未解决疑虑（如资源泄漏、对齐问题）。建议结合后续 PR 观察是否补充错误处理和测试。

查看完整分析 GitHub 原始 PR

2026-04-16

#7367 [Optimization][DeepSeekV3.2]Reducing slot_mapping compute frequency from twice per layer to a single pre-processing step.

作者 ShaneGZhu · 合并时间 2026-04-16 19:54

optimization 重要性 6.40 洞察度 6.00

将 DeepSeekV3.2 模型 slot_mapping 计算从每层两次优化为单次预处理，提升推理性能约 8-14%。

Optimization Models KVCache OP

该 PR 值得精读，特别是设计决策将计算从模型层移至运行器层，展示了性能优化与代码抽象的权衡。关注 `_compute_position_ids_and_slot_mapping` 方法的实现细节，以及 review 中讨论的未解决点（如 GlmMoeDsa 兼容性），以便在其他优化中借鉴。

查看完整分析 GitHub 原始 PR

#7420 [BugFix][XPU] Fix kv_cache management bug

作者 ddchenhao66 · 合并时间 2026-04-16 15:45

缺陷修复重要性 4.19 洞察度 4.00

修复 XPU model runner 在开启 attention store 时重复创建 KV cache 的问题。

XPU KVCache bugfix

该 PR 值得精读，特别是对于关注 XPU 平台优化和 KV cache 管理的工程师。关键设计决策在于将条件逻辑从单一检查扩展为多条件组合，这反映了对 cache 管理策略的细化，值得学习其与 GPU/Metax 实现对齐的思路。

查看完整分析 GitHub 原始 PR

2026-04-14

#7364 [BugFix][PD Disaggregation][KVCache] Fix low cache hit rate in PD split (disaggregation) scenario

作者 kevincheng2 · 合并时间 2026-04-14 16:15

缺陷修复重要性 6.00 洞察度 5.00

修复PD分离场景下prefill节点未及时更新prefix cache命中信息导致的低命中率问题。

bugfix KVCache Scheduler Engine

该PR值得精读，特别是关注prefill节点在PD分离架构中的cache状态管理设计。建议重点关注：1. update_cache_blocks参数选择的权衡（need_prefill_tokens vs num_computed_tokens）及其对cache一致性的影响；2. PD分离模式下prefill与decode节点职责划分的边界设计。

查看完整分析 GitHub 原始 PR

2026-04-13

#7241 [Optimization] 移除 num_blocks 上限限制

作者 yuanlehome · 合并时间 2026-04-13 22:07

性能优化重要性 6.00 洞察度 5.00

移除KV Cache块数上限限制，提升高显存设备的显存利用率。

Optimization KVCache Engine

建议精读以理解KV Cache分配机制和移除限制的权衡。关注`iluvatar_worker.py`的未同步修改，以及测试baseline的普适性问题，可作为学习风险管理的案例。

查看完整分析 GitHub 原始 PR

2026-04-12

#7299 [Optim] Remove IPCLock between CacheManager and WorkerProcess

作者 Jiang-Jia-Jun · 合并时间 2026-04-12 13:59

性能优化重要性 6.00 洞察度 5.00

移除CacheManager与WorkerProcess间的IPCLock进程间锁，优化性能并简化IPC组件。

Optimization KVCache Engine Refactor

建议精读以理解锁移除的设计决策，关注作者提到的Kernel bug修复细节。值得关注点包括swap任务同步机制如何确保互斥，以及是否有隐式测试覆盖。对于风险较高的DP+EP配置，建议团队补充回归测试。

查看完整分析 GitHub 原始 PR

2026-04-03

#7161 [BugFix] Set MC_MAX_MR_SIZE to avoid register hang in default

作者 juncaipeng · 合并时间 2026-04-03 10:51

缺陷修复重要性 4.00 洞察度 3.00

为Mooncake存储设置默认MC_MAX_MR_SIZE环境变量，避免注册时挂起。

bugfix KVCache Others

该PR值得快速浏览，重点关注：1) 环境变量默认值设置模式（先检查后设置）值得借鉴；2) Copilot关于单位准确性和魔法数字处理的建议对代码质量有参考价值；3) 可作为配置管理最佳实践的简单案例。

查看完整分析 GitHub 原始 PR

2026-04-02

#7083 [RL] [KVCache] let cache transfer managers update key prefix after weight update and add unit tests

作者 liyonghua0910 · 合并时间 2026-04-02 19:58

功能重要性 5.00 洞察度 6.00

在模型权重更新后更新缓存 key prefix，并添加单元测试。

RL KVCache test Feature

建议开发者和架构师精读此 PR，关注请求追踪的改进和缓存同步设计决策，同时注意测试覆盖不足的风险。

查看完整分析 GitHub 原始 PR

第 1 / 3 页 · 共 17 条

1 2 3 下一页