← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态：已开启最近同步：2026-04-18 23:39 同步状态：空闲下次计划：2026-04-19 00:39

PR 列表

已合并 179 · 已分析 179

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-08

#7254 Revert "[Other] support video_fps args for video bench (#7077)"

作者 Wanglongzhi2001 · 合并时间 2026-04-08 20:13

其他重要性 3.00 洞察度 2.00

回滚OpenAI协议中为视频基准测试临时添加的video_fps参数。

该PR值得快速浏览以了解API清理决策，但技术内容简单。关注点：1) 回滚决策反映临时参数应避免加入核心协议；2) 视频处理参数传递的最佳实践（通过mm_processor_kwargs）。无需深入代码分析。

查看完整分析 GitHub 原始 PR APIServerOthersRefactor

#7159 [Feature] Support set PREEMPTED_TOKEN_ID in GET_SAVE_OUTPUT_V1

作者 rainyfly · 合并时间 2026-04-08 19:30

功能重要性 4.00 洞察度 3.00

在GET_SAVE_OUTPUT_V1模式下为被抢占请求设置特殊令牌ID以同步中断完成信号。

该PR值得快速浏览，重点关注环境变量名的修正和抢占信号传递机制的设计。虽然变更规模小，但展示了如何通过特殊令牌ID在异步处理中传递控制信号的设计模式，对于理解FastDeploy的请求生命周期管理有帮助。

查看完整分析 GitHub 原始 PR FeatureEngineGPU

#7096 [XPU] Add TP broadcast after sampling in XPU model runner.

作者 Jiajun-Ji · 合并时间 2026-04-08 19:26

缺陷修复重要性 5.00 洞察度 4.00

在XPU模型运行器中添加TP采样后广播，确保多卡采样结果一致。

该PR值得精读，特别是对于从事分布式推理开发的工程师。虽然变更简单，但揭示了TP模式下采样同步的重要设计决策：必须保证所有rank使用相同的采样结果以避免分歧。建议关注： 1. 为什么选择广播而非其他同步机制？ 2. 为什么src rank计算为data_parallel_rank * tensor_parallel_size？ 3. 投机解码路径为何需要广播四个特定张量？

查看完整分析 GitHub 原始 PR XPUbugfixOptimization

#7185 [BugFix] fix multimodal hasher hash collision risk when ndarray shape or dtype differs

作者 3em0 · 合并时间 2026-04-08 19:26

缺陷修复重要性 5.00 洞察度 5.00

修复多模态哈希函数因未编码数组元数据导致的缓存键碰撞风险。

该PR值得精读，展示了如何通过简单而有效的编码方案解决哈希碰撞问题。关注点：1) shape和dtype头部格式的设计（使用“|”分隔符）确保了唯一性和可解析性。2) 测试用例的设计体现了对问题本质的理解（形状和数据类型敏感性）。3) review中提到的缓存失效处理是实际部署时需注意的要点。

查看完整分析 GitHub 原始 PR bugfixDataProcessorOptimization

#7244 [XPU][CI]Remove duplicate NICs from environment variables

作者 plusNew001 · 合并时间 2026-04-08 19:14

基础设施重要性 3.00 洞察度 4.00

移除XPU CI测试环境变量中重复的硬编码网卡配置，避免配置冲突。

该PR变更简单，但揭示了CI环境变量管理的一个潜在问题。建议精读`tests/xpu_ci/conftest.py`中的`setup_ep_env()`和`restore_env()`逻辑，关注环境变量保存与恢复机制。对于维护类似测试框架的工程师，这是一个学习环境隔离设计的好案例。

查看完整分析 GitHub 原始 PR XPUCIinfra

#7165 [TBO] Apply tbo to gpu_model_runner

作者 RichardWooSJTU · 合并时间 2026-04-08 16:55

功能重要性 5.00 洞察度 4.00

在GPU模型运行器中应用TBO（Tensor Buffer Optimization）优化注意力缓冲区管理。

该PR值得关注，因为它引入了TBO优化的基础设施。建议精读gpu_model_runner.py中新增的TBO初始化逻辑，理解其如何与全局缓冲区交互。同时，应关注后续PR如何利用这些缓冲区进行实际优化。

查看完整分析 GitHub 原始 PR OptimizationGPUFeature

#7242 [CI] Reduce execution time for ngram kernel tests

作者 EmmonsCurse · 合并时间 2026-04-08 16:54

CI 重要性 4.00 洞察度 5.00

大幅缩减ngram kernel测试执行时间，从6分钟降至20秒，提升CI效率。

该PR展示了CI优化中测试时间与覆盖率的典型权衡。建议精读fastdeploy-bot的评论，思考如何平衡CI效率与测试有效性。对于性能基准测试，可考虑在CI配置中排除或仅在特定触发条件下运行，而非修改参数使其失效。

查看完整分析 GitHub 原始 PR CIOptimizationSpeculative Decoding

#7238 [BugFix] support moe for sm103

作者 BingooYang · 合并时间 2026-04-08 15:52

缺陷修复重要性 4.00 洞察度 5.00

修复MoE GEMM在SM103架构上的编译与运行时架构检查范围不一致问题。

该PR值得快速浏览，关注架构版本检查的编码模式，理解__CUDA_ARCH__与sm_的格式差异（前者为major*100+minor，后者为major*10+minor），这对处理GPU架构兼容性有借鉴意义。

查看完整分析 GitHub 原始 PR MoEGPUbugfix

第 12 / 23 页 · 共 179 条

上一页 1 … 10 11 12 13 14 … 23 下一页

支持 Prhub ♥