Prhub
← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

聚合结果

GPU 相关 PR

2026-04-13

#7371 [OP][RL]update attn_mask_q 2

作者 ckl117 · 合并时间 2026-04-13 23:06

optimization 重要性 5.00 洞察度 4.00

将attn_mask_q算子输出维度从4优化为2,减少内存占用。

OP Optimization GPU

建议关注这个PR的设计决策:通过减少维度来优化内存,但需要验证下游兼容性。值得精读以理解注意力掩码的表示优化,但需注意fastdeploy-bot提出的兼容性风险。

2026-04-11

#7313 [Optimization] [OP] [Models] dsk del prefill mask

作者 chang-wenbin · 合并时间 2026-04-11 19:32

optimization 重要性 6.00 洞察度 6.00

优化 DeepSeek V3 模型的 rotary kernel 和 merge 算子,支持超长序列和多种 head_dim。

Optimization OP Models GPU

建议工程师精读以学习 GPU kernel 优化技巧(如 2D grid 设计)和算子扩展模式,同时关注 review 中指出的风险点,考虑补充测试验证。

2026-04-10
缺陷修复 重要性 6.00 洞察度 5.00

修复GPU异步拷贝竞态和Flash Mask Attention共享内存越界两个关键bug。

bugfix GPU OP Optimization

该PR值得精读,特别是mainloop_attn.hpp中的边界处理逻辑,展示了在CUDA kernel中处理非对齐序列长度的通用模式。关注同步拷贝与性能的权衡,以及共享内存管理的安全性设计。

2026-04-09

#7210 [BugFix] Fix batch_size derivation and relax shape checks in SM90 flash_mask_attn

作者 xiaoxiaohehe001 · 合并时间 2026-04-09 11:05

缺陷修复 重要性 5.00 洞察度 5.00

修复SM90 flash_mask_attn算子batch_size推导错误,放宽shape校验以兼容预分配输入。

bugfix OP GPU Attention

该PR值得精读,重点关注:1. Python侧切片方案的设计权衡,以及是否应将修复逻辑移至CUDA侧。2. shape校验放宽的边界条件处理,是否应添加下界校验以避免越界风险。3. 预分配场景下的测试覆盖缺失问题。

2026-04-08

#7252 [BugFix]Fix DSA multi-batch inference deployment

作者 chang-wenbin · 合并时间 2026-04-08 20:21

缺陷修复 重要性 6.00 洞察度 5.00

修复 DSA 多批次推理部署中的 batch_id 计算和输出指针映射问题。

bugfix GPU OP Models

建议从事 GPU kernel 开发或模型部署的工程师精读此 PR,重点关注 indexer_topk.cuh 中 batch_id 计算变更的设计权衡,以及 deepseek_v3.py 中 logits 处理简化的逻辑。这有助于理解多批次场景下的索引映射和注意力优化。

#7159 [Feature] Support set PREEMPTED_TOKEN_ID in GET_SAVE_OUTPUT_V1

作者 rainyfly · 合并时间 2026-04-08 19:30

功能 重要性 4.00 洞察度 3.00

在GET_SAVE_OUTPUT_V1模式下为被抢占请求设置特殊令牌ID以同步中断完成信号。

Feature Engine GPU

该PR值得快速浏览,重点关注环境变量名的修正和抢占信号传递机制的设计。虽然变更规模小,但展示了如何通过特殊令牌ID在异步处理中传递控制信号的设计模式,对于理解FastDeploy的请求生命周期管理有帮助。

#7165 [TBO] Apply tbo to gpu_model_runner

作者 RichardWooSJTU · 合并时间 2026-04-08 16:55

功能 重要性 5.00 洞察度 4.00

在GPU模型运行器中应用TBO(Tensor Buffer Optimization)优化注意力缓冲区管理。

Optimization GPU Feature

该PR值得关注,因为它引入了TBO优化的基础设施。建议精读gpu_model_runner.py中新增的TBO初始化逻辑,理解其如何与全局缓冲区交互。同时,应关注后续PR如何利用这些缓冲区进行实际优化。

#7238 [BugFix] support moe for sm103

作者 BingooYang · 合并时间 2026-04-08 15:52

缺陷修复 重要性 4.00 洞察度 5.00

修复MoE GEMM在SM103架构上的编译与运行时架构检查范围不一致问题。

MoE GPU bugfix Optimization

该PR值得快速浏览,关注架构版本检查的编码模式,理解__CUDA_ARCH__与sm_的格式差异(前者为major*100+minor,后者为major*10+minor),这对处理GPU架构兼容性有借鉴意义。