← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

Optimization · 67

bugfix · 55

Feature · 37

OP · 37

CI · 33

test · 31

infra · 30

GPU · 28

Models · 25

Others · 21

APIServer · 18

MoE · 18

Scheduler · 18

Speculative Decoding · 18

KVCache · 17

Refactor · 16

RL · 14

XPU · 14

Engine · 12

Quantization · 11

docs · 10

DataProcessor · 8

Logging · 8

Attention · 6

Benchmark · 3

Graph Optimization · 3

Iluvatar · 3

Loader · 3

FlashInfer · 2

FDConfig · 1

Metax · 1

PD Disaggregation · 1

Security · 1

聚合结果

Attention 相关 PR

2026-04-09

#7210 [BugFix] Fix batch_size derivation and relax shape checks in SM90 flash_mask_attn

作者 xiaoxiaohehe001 · 合并时间 2026-04-09 11:05

缺陷修复重要性 5.00 洞察度 5.00

修复SM90 flash_mask_attn算子batch_size推导错误，放宽shape校验以兼容预分配输入。

bugfix OP GPU Attention

该PR值得精读，重点关注：1. Python侧切片方案的设计权衡，以及是否应将修复逻辑移至CUDA侧。2. shape校验放宽的边界条件处理，是否应添加下界校验以避免越界风险。3. 预分配场景下的测试覆盖缺失问题。

查看完整分析 GitHub 原始 PR

2026-04-03

#7139 [Models]support GLM4.7 Flash

作者 chang-wenbin · 合并时间 2026-04-03 17:41

功能重要性 6.00 洞察度 5.00

为GLM4.7 Flash模型添加支持，统一forward参数并处理MLA注意力头部padding。

Models Feature Attention Optimization

建议工程师精读此PR，关注ForwardMeta的统一参数传递设计，以及MLA注意力中padding处理的技术权衡。对于维护者，需验证rope_scaling逻辑的正确性和padding的边界条件，并补充测试覆盖。

查看完整分析 GitHub 原始 PR

2026-03-31

#7105 [append attention] remove useless code

作者 zhoutianzi666 · 合并时间 2026-03-31 16:13

重构重要性 4.00 洞察度 2.00

移除GPU append attention内核中的冗余条件检查代码。

GPU Attention Refactor

该PR变更简单，不值得深入精读，但可作为代码清理的参考。关注点：确保删除的代码确实冗余，不会影响正确性。

查看完整分析 GitHub 原始 PR

2026-03-30

#7062 [append attention] clean code

作者 zhoutianzi666 · 合并时间 2026-03-30 15:07

重构重要性 4.00 洞察度 4.00

清理 GPU 多查询 attention 内核代码，移除冗余变量和条件检查。

GPU Attention Refactor

建议工程师在修改 GPU 内核时参考此 PR，了解如何简化边界逻辑和添加编译时检查；对于一般读者，可快速浏览以理解代码清理模式，但非核心学习材料。

查看完整分析 GitHub 原始 PR

#7028 [BugFix] Fix kv cache int8 dynamic quant on flash and flash_mask backend

作者 Wanglongzhi2001 · 合并时间 2026-03-30 11:17

缺陷修复重要性 6.00 洞察度 6.00

修复Flash和FlashMask后端KV缓存int8动态量化的索引和反量化逻辑。

bugfix KVCache Quantization GPU Attention

该PR值得精读，尤其对于关注GPU内核优化、量化技术和注意力后端实现的工程师。关键设计决策包括使用`if constexpr`优化编译时分支、动态scale处理策略，以及softmax数值保护。建议关注CUDA内核修改和测试改进点。

查看完整分析 GitHub 原始 PR

#7016 [Feature] Support cute cpp Encoder FA4

作者 mpgemm · 合并时间 2026-03-30 10:54

功能重要性 5.00 洞察度 5.00

新增支持NVIDIA SM100的C++ FA4算子并集成至FLASH_MASK_ATTN后端。

Feature Attention GPU

建议开发团队精读 `flash_attn_v4.py` 的实现，关注外部调用和硬件判断逻辑；测试团队应补充覆盖率，确保新算子在多种场景下正确性。

查看完整分析 GitHub 原始 PR