#6730 [CI]【Hackathon 10th Spring No.33】config 单测补充
作者 cloudforge1 · 合并时间 2026-04-09 14:28
为 config.py 补充单元测试,覆盖率从 83% 提升至 99%。
该 PR 值得精读,特别是对于学习如何高效设计单元测试、使用工厂函数和 Mock 技术,以及代码精简策略。关注测试类结构和覆盖率提升方法。
High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle
作者 cloudforge1 · 合并时间 2026-04-09 14:28
为 config.py 补充单元测试,覆盖率从 83% 提升至 99%。
该 PR 值得精读,特别是对于学习如何高效设计单元测试、使用工厂函数和 Mock 技术,以及代码精简策略。关注测试类结构和覆盖率提升方法。
作者 cloudforge1 · 合并时间 2026-04-09 13:46
为FastDeploy引擎模块添加全面单元测试,覆盖率从51%提升至92%。
建议engine模块开发者和测试工程师精读此PR,学习如何为复杂引擎编写全面单元测试,特别是mock策略和配置构造。关注review中讨论的patch技巧,避免环境变量污染和测试不稳定性陷阱。
作者 plusNew001 · 合并时间 2026-04-09 12:44
锁定XPU算子依赖版本并移除硬编码RDMA网卡配置,提升CI稳定性。
该PR变更简单但涉及CI基础设施,建议关注环境变量恢复逻辑的完整性。对于维护XPU CI的工程师,值得查看tests/xpu_ci/conftest.py中restore_env()的实现,确保BKCL_RDMA_NICS能正确恢复。锁定版本的做法值得借鉴,但需确保有相应的版本管理和回滚机制。
作者 BingooYang · 合并时间 2026-04-09 11:30
为 GPU 算子生成脚本添加 jinja2 依赖检查,提供更清晰的编译错误提示。
该 PR 变更简单直接,无需精读。对于维护者,值得关注 fastdeploy-bot 提出的日志记录建议,虽未采纳但可作为未来类似改进的参考。对于新贡献者,可作为学习如何添加友好错误提示的示例。
作者 xiaoxiaohehe001 · 合并时间 2026-04-09 11:05
修复SM90 flash_mask_attn算子batch_size推导错误,放宽shape校验以兼容预分配输入。
该PR值得精读,重点关注:1. Python侧切片方案的设计权衡,以及是否应将修复逻辑移至CUDA侧。2. shape校验放宽的边界条件处理,是否应添加下界校验以避免越界风险。3. 预分配场景下的测试覆盖缺失问题。
作者 zoooo0820 · 合并时间 2026-04-09 11:01
支持 MoE TopK 使用自定义归约函数,提升数值准确性并移除旧实现。
建议精读此 PR 以理解 MoE TopK 自定义归一化机制,特别关注 get_moe_scores 函数中的逻辑和 topk_reduce_func 参数的设计。同时,注意 review 中讨论的风险点,确保在部署时正确配置参数,并考虑为其他模型添加 topk_reduce_func 支持。
作者 ShaneGZhu · 合并时间 2026-04-09 11:00
优化DSA注意力后端,移除CUDA Graph捕获时的同步操作和不必要的内存拷贝。
该PR值得精读,尤其是view替代transpose+contiguous的设计决策。关注点: 1. 理解view操作在维度为1时的安全性原理,以及如何通过断言确保条件成立。 2. 学习fastdeploy-bot的review分析,包括stride计算和与C++ kernel的交互细节。 3. 注意优化对模型特定形状(头数为1)的依赖,避免盲目复制到其他场景。
作者 chang-wenbin · 合并时间 2026-04-08 20:21
修复 DSA 多批次推理部署中的 batch_id 计算和输出指针映射问题。
建议从事 GPU kernel 开发或模型部署的工程师精读此 PR,重点关注 indexer_topk.cuh 中 batch_id 计算变更的设计权衡,以及 deepseek_v3.py 中 logits 处理简化的逻辑。这有助于理解多批次场景下的索引映射和注意力优化。
参与讨论