Prhub
← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

聚合结果

Attention 相关 PR

2026-04-09

#7210 [BugFix] Fix batch_size derivation and relax shape checks in SM90 flash_mask_attn

作者 xiaoxiaohehe001 · 合并时间 2026-04-09 11:05

缺陷修复 重要性 5.00 洞察度 5.00

修复SM90 flash_mask_attn算子batch_size推导错误,放宽shape校验以兼容预分配输入。

bugfix OP GPU Attention

该PR值得精读,重点关注:1. Python侧切片方案的设计权衡,以及是否应将修复逻辑移至CUDA侧。2. shape校验放宽的边界条件处理,是否应添加下界校验以避免越界风险。3. 预分配场景下的测试覆盖缺失问题。

2026-04-03

#7139 [Models]support GLM4.7 Flash

作者 chang-wenbin · 合并时间 2026-04-03 17:41

功能 重要性 6.00 洞察度 5.00

为GLM4.7 Flash模型添加支持,统一forward参数并处理MLA注意力头部padding。

Models Feature Attention Optimization

建议工程师精读此PR,关注ForwardMeta的统一参数传递设计,以及MLA注意力中padding处理的技术权衡。对于维护者,需验证rope_scaling逻辑的正确性和padding的边界条件,并补充测试覆盖。

2026-03-31

#7105 [append attention] remove useless code

作者 zhoutianzi666 · 合并时间 2026-03-31 16:13

重构 重要性 4.00 洞察度 2.00

移除GPU append attention内核中的冗余条件检查代码。

GPU Attention Refactor

该PR变更简单,不值得深入精读,但可作为代码清理的参考。关注点:确保删除的代码确实冗余,不会影响正确性。

2026-03-30

#7062 [append attention] clean code

作者 zhoutianzi666 · 合并时间 2026-03-30 15:07

重构 重要性 4.00 洞察度 4.00

清理 GPU 多查询 attention 内核代码,移除冗余变量和条件检查。

GPU Attention Refactor

建议工程师在修改 GPU 内核时参考此 PR,了解如何简化边界逻辑和添加编译时检查;对于一般读者,可快速浏览以理解代码清理模式,但非核心学习材料。

#7028 [BugFix] Fix kv cache int8 dynamic quant on flash and flash_mask backend

作者 Wanglongzhi2001 · 合并时间 2026-03-30 11:17

缺陷修复 重要性 6.00 洞察度 6.00

修复Flash和FlashMask后端KV缓存int8动态量化的索引和反量化逻辑。

bugfix KVCache Quantization GPU Attention

该PR值得精读,尤其对于关注GPU内核优化、量化技术和注意力后端实现的工程师。关键设计决策包括使用`if constexpr`优化编译时分支、动态scale处理策略,以及softmax数值保护。建议关注CUDA内核修改和测试改进点。

#7016 [Feature] Support cute cpp Encoder FA4

作者 mpgemm · 合并时间 2026-03-30 10:54

功能 重要性 5.00 洞察度 5.00

新增支持NVIDIA SM100的C++ FA4算子并集成至FLASH_MASK_ATTN后端。

Feature Attention GPU

建议开发团队精读 `flash_attn_v4.py` 的实现,关注外部调用和硬件判断逻辑;测试团队应补充覆盖率,确保新算子在多种场景下正确性。