Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 23:39 同步状态:空闲 下次计划:2026-04-19 00:39

PR 列表

已合并 179 · 已分析 179
更多筛选
2026-04-08
其他 重要性 3.00 洞察度 2.00

回滚OpenAI协议中为视频基准测试临时添加的video_fps参数。

该PR值得快速浏览以了解API清理决策,但技术内容简单。关注点:1) 回滚决策反映临时参数应避免加入核心协议;2) 视频处理参数传递的最佳实践(通过mm_processor_kwargs)。无需深入代码分析。

功能 重要性 4.00 洞察度 3.00

在GET_SAVE_OUTPUT_V1模式下为被抢占请求设置特殊令牌ID以同步中断完成信号。

该PR值得快速浏览,重点关注环境变量名的修正和抢占信号传递机制的设计。虽然变更规模小,但展示了如何通过特殊令牌ID在异步处理中传递控制信号的设计模式,对于理解FastDeploy的请求生命周期管理有帮助。

缺陷修复 重要性 5.00 洞察度 4.00

在XPU模型运行器中添加TP采样后广播,确保多卡采样结果一致。

该PR值得精读,特别是对于从事分布式推理开发的工程师。虽然变更简单,但揭示了TP模式下采样同步的重要设计决策:必须保证所有rank使用相同的采样结果以避免分歧。建议关注: 1. 为什么选择广播而非其他同步机制? 2. 为什么src rank计算为data_parallel_rank * tensor_parallel_size? 3. 投机解码路径为何需要广播四个特定张量?

缺陷修复 重要性 5.00 洞察度 5.00

修复多模态哈希函数因未编码数组元数据导致的缓存键碰撞风险。

该PR值得精读,展示了如何通过简单而有效的编码方案解决哈希碰撞问题。关注点:1) shape和dtype头部格式的设计(使用“|”分隔符)确保了唯一性和可解析性。2) 测试用例的设计体现了对问题本质的理解(形状和数据类型敏感性)。3) review中提到的缓存失效处理是实际部署时需注意的要点。

基础设施 重要性 3.00 洞察度 4.00

移除XPU CI测试环境变量中重复的硬编码网卡配置,避免配置冲突。

该PR变更简单,但揭示了CI环境变量管理的一个潜在问题。建议精读`tests/xpu_ci/conftest.py`中的`setup_ep_env()`和`restore_env()`逻辑,关注环境变量保存与恢复机制。对于维护类似测试框架的工程师,这是一个学习环境隔离设计的好案例。

#7165 [TBO] Apply tbo to gpu_model_runner

作者 RichardWooSJTU · 合并时间 2026-04-08 16:55

功能 重要性 5.00 洞察度 4.00

在GPU模型运行器中应用TBO(Tensor Buffer Optimization)优化注意力缓冲区管理。

该PR值得关注,因为它引入了TBO优化的基础设施。建议精读gpu_model_runner.py中新增的TBO初始化逻辑,理解其如何与全局缓冲区交互。同时,应关注后续PR如何利用这些缓冲区进行实际优化。

CI 重要性 4.00 洞察度 5.00

大幅缩减ngram kernel测试执行时间,从6分钟降至20秒,提升CI效率。

该PR展示了CI优化中测试时间与覆盖率的典型权衡。建议精读fastdeploy-bot的评论,思考如何平衡CI效率与测试有效性。对于性能基准测试,可考虑在CI配置中排除或仅在特定触发条件下运行,而非修改参数使其失效。

#7238 [BugFix] support moe for sm103

作者 BingooYang · 合并时间 2026-04-08 15:52

缺陷修复 重要性 4.00 洞察度 5.00

修复MoE GEMM在SM103架构上的编译与运行时架构检查范围不一致问题。

该PR值得快速浏览,关注架构版本检查的编码模式,理解__CUDA_ARCH__与sm_的格式差异(前者为major*100+minor,后者为major*10+minor),这对处理GPU架构兼容性有借鉴意义。

参与讨论