← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

Optimization · 67

bugfix · 55

Feature · 37

OP · 37

CI · 33

test · 31

infra · 30

GPU · 28

Models · 25

Others · 21

APIServer · 18

MoE · 18

Scheduler · 18

Speculative Decoding · 18

KVCache · 17

Refactor · 16

RL · 14

XPU · 14

Engine · 12

Quantization · 11

docs · 10

DataProcessor · 8

Logging · 8

Attention · 6

Benchmark · 3

Graph Optimization · 3

Iluvatar · 3

Loader · 3

FlashInfer · 2

FDConfig · 1

Metax · 1

PD Disaggregation · 1

Security · 1

聚合结果

GPU 相关 PR

2026-04-13

#7371 [OP][RL]update attn_mask_q 2

作者 ckl117 · 合并时间 2026-04-13 23:06

optimization 重要性 5.00 洞察度 4.00

将attn_mask_q算子输出维度从4优化为2，减少内存占用。

OP Optimization GPU

建议关注这个PR的设计决策：通过减少维度来优化内存，但需要验证下游兼容性。值得精读以理解注意力掩码的表示优化，但需注意fastdeploy-bot提出的兼容性风险。

查看完整分析 GitHub 原始 PR

2026-04-11

#7313 [Optimization] [OP] [Models] dsk del prefill mask

作者 chang-wenbin · 合并时间 2026-04-11 19:32

optimization 重要性 6.00 洞察度 6.00

优化 DeepSeek V3 模型的 rotary kernel 和 merge 算子，支持超长序列和多种 head_dim。

Optimization OP Models GPU

建议工程师精读以学习 GPU kernel 优化技巧（如 2D grid 设计）和算子扩展模式，同时关注 review 中指出的风险点，考虑补充测试验证。

查看完整分析 GitHub 原始 PR

2026-04-10

#7221 [BugFix] Fix Async D2H copy bug & flash mash atten cache V out of bound bug

作者 ming1753 · 合并时间 2026-04-10 11:31

缺陷修复重要性 6.00 洞察度 5.00

修复GPU异步拷贝竞态和Flash Mask Attention共享内存越界两个关键bug。

bugfix GPU OP Optimization

该PR值得精读，特别是mainloop_attn.hpp中的边界处理逻辑，展示了在CUDA kernel中处理非对齐序列长度的通用模式。关注同步拷贝与性能的权衡，以及共享内存管理的安全性设计。

查看完整分析 GitHub 原始 PR

2026-04-09

#7210 [BugFix] Fix batch_size derivation and relax shape checks in SM90 flash_mask_attn

作者 xiaoxiaohehe001 · 合并时间 2026-04-09 11:05

缺陷修复重要性 5.00 洞察度 5.00

修复SM90 flash_mask_attn算子batch_size推导错误，放宽shape校验以兼容预分配输入。

bugfix OP GPU Attention

该PR值得精读，重点关注：1. Python侧切片方案的设计权衡，以及是否应将修复逻辑移至CUDA侧。2. shape校验放宽的边界条件处理，是否应添加下界校验以避免越界风险。3. 预分配场景下的测试覆盖缺失问题。

查看完整分析 GitHub 原始 PR

2026-04-08

#7252 [BugFix]Fix DSA multi-batch inference deployment

作者 chang-wenbin · 合并时间 2026-04-08 20:21

缺陷修复重要性 6.00 洞察度 5.00

修复 DSA 多批次推理部署中的 batch_id 计算和输出指针映射问题。

bugfix GPU OP Models

建议从事 GPU kernel 开发或模型部署的工程师精读此 PR，重点关注 indexer_topk.cuh 中 batch_id 计算变更的设计权衡，以及 deepseek_v3.py 中 logits 处理简化的逻辑。这有助于理解多批次场景下的索引映射和注意力优化。

查看完整分析 GitHub 原始 PR

#7159 [Feature] Support set PREEMPTED_TOKEN_ID in GET_SAVE_OUTPUT_V1

作者 rainyfly · 合并时间 2026-04-08 19:30

功能重要性 4.00 洞察度 3.00

在GET_SAVE_OUTPUT_V1模式下为被抢占请求设置特殊令牌ID以同步中断完成信号。

Feature Engine GPU

该PR值得快速浏览，重点关注环境变量名的修正和抢占信号传递机制的设计。虽然变更规模小，但展示了如何通过特殊令牌ID在异步处理中传递控制信号的设计模式，对于理解FastDeploy的请求生命周期管理有帮助。

查看完整分析 GitHub 原始 PR

#7165 [TBO] Apply tbo to gpu_model_runner

作者 RichardWooSJTU · 合并时间 2026-04-08 16:55

功能重要性 5.00 洞察度 4.00

在GPU模型运行器中应用TBO（Tensor Buffer Optimization）优化注意力缓冲区管理。

Optimization GPU Feature

该PR值得关注，因为它引入了TBO优化的基础设施。建议精读gpu_model_runner.py中新增的TBO初始化逻辑，理解其如何与全局缓冲区交互。同时，应关注后续PR如何利用这些缓冲区进行实际优化。

查看完整分析 GitHub 原始 PR

#7238 [BugFix] support moe for sm103

作者 BingooYang · 合并时间 2026-04-08 15:52

缺陷修复重要性 4.00 洞察度 5.00

修复MoE GEMM在SM103架构上的编译与运行时架构检查范围不一致问题。

MoE GPU bugfix Optimization

该PR值得快速浏览，关注架构版本检查的编码模式，理解__CUDA_ARCH__与sm_的格式差异（前者为major*100+minor，后者为major*10+minor），这对处理GPU架构兼容性有借鉴意义。

查看完整分析 GitHub 原始 PR

第 1 / 4 页 · 共 28 条

1 2 3 4 下一页