#7371 [OP][RL]update attn_mask_q 2
作者 ckl117 · 合并时间 2026-04-13 23:06
将attn_mask_q算子输出维度从4优化为2,减少内存占用。
建议关注这个PR的设计决策:通过减少维度来优化内存,但需要验证下游兼容性。值得精读以理解注意力掩码的表示优化,但需注意fastdeploy-bot提出的兼容性风险。
标签列表
聚合结果
作者 ckl117 · 合并时间 2026-04-13 23:06
将attn_mask_q算子输出维度从4优化为2,减少内存占用。
建议关注这个PR的设计决策:通过减少维度来优化内存,但需要验证下游兼容性。值得精读以理解注意力掩码的表示优化,但需注意fastdeploy-bot提出的兼容性风险。
作者 chang-wenbin · 合并时间 2026-04-11 19:32
优化 DeepSeek V3 模型的 rotary kernel 和 merge 算子,支持超长序列和多种 head_dim。
建议工程师精读以学习 GPU kernel 优化技巧(如 2D grid 设计)和算子扩展模式,同时关注 review 中指出的风险点,考虑补充测试验证。
作者 ming1753 · 合并时间 2026-04-10 11:31
修复GPU异步拷贝竞态和Flash Mask Attention共享内存越界两个关键bug。
该PR值得精读,特别是mainloop_attn.hpp中的边界处理逻辑,展示了在CUDA kernel中处理非对齐序列长度的通用模式。关注同步拷贝与性能的权衡,以及共享内存管理的安全性设计。
作者 xiaoxiaohehe001 · 合并时间 2026-04-09 11:05
修复SM90 flash_mask_attn算子batch_size推导错误,放宽shape校验以兼容预分配输入。
该PR值得精读,重点关注:1. Python侧切片方案的设计权衡,以及是否应将修复逻辑移至CUDA侧。2. shape校验放宽的边界条件处理,是否应添加下界校验以避免越界风险。3. 预分配场景下的测试覆盖缺失问题。
作者 chang-wenbin · 合并时间 2026-04-08 20:21
修复 DSA 多批次推理部署中的 batch_id 计算和输出指针映射问题。
建议从事 GPU kernel 开发或模型部署的工程师精读此 PR,重点关注 indexer_topk.cuh 中 batch_id 计算变更的设计权衡,以及 deepseek_v3.py 中 logits 处理简化的逻辑。这有助于理解多批次场景下的索引映射和注意力优化。
作者 rainyfly · 合并时间 2026-04-08 19:30
在GET_SAVE_OUTPUT_V1模式下为被抢占请求设置特殊令牌ID以同步中断完成信号。
该PR值得快速浏览,重点关注环境变量名的修正和抢占信号传递机制的设计。虽然变更规模小,但展示了如何通过特殊令牌ID在异步处理中传递控制信号的设计模式,对于理解FastDeploy的请求生命周期管理有帮助。
作者 RichardWooSJTU · 合并时间 2026-04-08 16:55
在GPU模型运行器中应用TBO(Tensor Buffer Optimization)优化注意力缓冲区管理。
该PR值得关注,因为它引入了TBO优化的基础设施。建议精读gpu_model_runner.py中新增的TBO初始化逻辑,理解其如何与全局缓冲区交互。同时,应关注后续PR如何利用这些缓冲区进行实际优化。
作者 BingooYang · 合并时间 2026-04-08 15:52
修复MoE GEMM在SM103架构上的编译与运行时架构检查范围不一致问题。
该PR值得快速浏览,关注架构版本检查的编码模式,理解__CUDA_ARCH__与sm_的格式差异(前者为major*100+minor,后者为major*10+minor),这对处理GPU架构兼容性有借鉴意义。