← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态：已开启最近同步：2026-04-18 19:21 同步状态：空闲下次计划：2026-04-18 20:21

PR 列表

已合并 178 · 已分析 178

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-30

#6963 [Feature] Support NVFP4 Flashinfer-cutedsl MoE on SM100

作者 mpgemm · 合并时间 2026-03-30 11:37

功能重要性 7.00 洞察度 7.00

支持SM100 GPU上的NVFP4 FlashInfer CuteDSL MoE后端，提升量化混合专家模型推理性能。

建议精读此PR，重点关注`nvfp4.py`中的权重处理逻辑和`flashinfer_cutedsl_moe.py`的核心设计，以理解量化MoE后端集成的技术权衡。对于维护者，需注意外部依赖的兼容性风险和硬件限制。

查看完整分析 GitHub 原始 PR QuantizationGPUMoE

#7072 [Feature] Update logging

作者 mouxinqq · 合并时间 2026-03-30 11:20

功能重要性 5.00 洞察度 3.00

更新 Go router 日志追踪，添加 trace ID 和 request ID 到错误响应。

建议阅读者关注日志追踪机制的实现，特别是如何从请求头提取 IDs 并注入上下文，以及错误响应的更新逻辑，这有助于理解 FastDeploy 的日志增强策略。

查看完整分析 GitHub 原始 PR APIServerLogging

#7028 [BugFix] Fix kv cache int8 dynamic quant on flash and flash_mask backend

作者 Wanglongzhi2001 · 合并时间 2026-03-30 11:17

缺陷修复重要性 6.00 洞察度 6.00

修复Flash和FlashMask后端KV缓存int8动态量化的索引和反量化逻辑。

该PR值得精读，尤其对于关注GPU内核优化、量化技术和注意力后端实现的工程师。关键设计决策包括使用`if constexpr`优化编译时分支、动态scale处理策略，以及softmax数值保护。建议关注CUDA内核修改和测试改进点。

查看完整分析 GitHub 原始 PR bugfixKVCacheQuantization

#7016 [Feature] Support cute cpp Encoder FA4

作者 mpgemm · 合并时间 2026-03-30 10:54

功能重要性 5.00 洞察度 5.00

新增支持NVIDIA SM100的C++ FA4算子并集成至FLASH_MASK_ATTN后端。

建议开发团队精读 `flash_attn_v4.py` 的实现，关注外部调用和硬件判断逻辑；测试团队应补充覆盖率，确保新算子在多种场景下正确性。

查看完整分析 GitHub 原始 PR FeatureAttentionGPU

#7048 [Refactor] Replace --skip-mm-profiling with --deploy-modality text

作者 kevincheng2 · 合并时间 2026-03-30 10:40

重构重要性 3.00 洞察度 2.00

重构多模态 token profiling 参数，用 deploy-modality text 替代 skip-mm-profiling，简化部署配置。

建议快速浏览此 PR，以了解如何复用现有参数简化多模态部署配置。重点关注 get_max_chunk_tokens 方法的逻辑调整，作为参数整合的设计示例。

查看完整分析 GitHub 原始 PR RefactorAPIServer

2026-03-29

#7064 [CI] Adapt to codecov action changes for Node.js 24

作者 EmmonsCurse · 合并时间 2026-03-29 16:49

基础设施重要性 1.00 洞察度 1.00

升级codecov-action从v5到v6，以适配Node.js 24并消除CI警告。

此PR变更简单，无需深入阅读；对于工程师，可作为基础设施维护和依赖升级的参考案例，重点关注CI工作流文件的版本管理。

查看完整分析 GitHub 原始 PR infraCI

2026-03-27

#7056 [CI] Align with Paddle layer_norm kernel update

作者 EmmonsCurse · 合并时间 2026-03-27 22:58

基础设施重要性 3.00 洞察度 2.00

更新 Qwen3VLMoe 测试基线以对齐 Paddle layer_norm 内核变更，确保 CI 稳定。

这是一个常规的 CI 维护变更，不值得精读，除非您负责测试基础设施或关注与上游 Paddle 的集成。建议关注点是测试基线的管理策略和外部依赖的同步机制，可作为案例学习如何应对上游库变更对 CI 的影响。

查看完整分析 GitHub 原始 PR CItest

#7050 [CI] Update docker run command in unit test coverage workflow

作者 ZhangYulongg · 合并时间 2026-03-27 19:53

基础设施重要性 3.00 洞察度 2.00

更新单元测试覆盖率工作流的Docker命令，移除--ipc=host并添加内核参数设置。

对于工程师，无需精读此PR，除非负责CI维护；可关注Docker命令变更是否影响本地开发或测试环境配置；设计决策简单，没有复杂权衡。

查看完整分析 GitHub 原始 PR CI

第 21 / 23 页 · 共 178 条

上一页 1 … 19 20 21 22 23 下一页

支持 Prhub ♥