Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 19:21 同步状态:空闲 下次计划:2026-04-18 20:21

PR 列表

已合并 178 · 已分析 178
更多筛选
2026-03-30
功能 重要性 7.00 洞察度 7.00

支持SM100 GPU上的NVFP4 FlashInfer CuteDSL MoE后端,提升量化混合专家模型推理性能。

建议精读此PR,重点关注`nvfp4.py`中的权重处理逻辑和`flashinfer_cutedsl_moe.py`的核心设计,以理解量化MoE后端集成的技术权衡。对于维护者,需注意外部依赖的兼容性风险和硬件限制。

#7072 [Feature] Update logging

作者 mouxinqq · 合并时间 2026-03-30 11:20

功能 重要性 5.00 洞察度 3.00

更新 Go router 日志追踪,添加 trace ID 和 request ID 到错误响应。

建议阅读者关注日志追踪机制的实现,特别是如何从请求头提取 IDs 并注入上下文,以及错误响应的更新逻辑,这有助于理解 FastDeploy 的日志增强策略。

缺陷修复 重要性 6.00 洞察度 6.00

修复Flash和FlashMask后端KV缓存int8动态量化的索引和反量化逻辑。

该PR值得精读,尤其对于关注GPU内核优化、量化技术和注意力后端实现的工程师。关键设计决策包括使用`if constexpr`优化编译时分支、动态scale处理策略,以及softmax数值保护。建议关注CUDA内核修改和测试改进点。

#7016 [Feature] Support cute cpp Encoder FA4

作者 mpgemm · 合并时间 2026-03-30 10:54

功能 重要性 5.00 洞察度 5.00

新增支持NVIDIA SM100的C++ FA4算子并集成至FLASH_MASK_ATTN后端。

建议开发团队精读 `flash_attn_v4.py` 的实现,关注外部调用和硬件判断逻辑;测试团队应补充覆盖率,确保新算子在多种场景下正确性。

重构 重要性 3.00 洞察度 2.00

重构多模态 token profiling 参数,用 deploy-modality text 替代 skip-mm-profiling,简化部署配置。

建议快速浏览此 PR,以了解如何复用现有参数简化多模态部署配置。重点关注 get_max_chunk_tokens 方法的逻辑调整,作为参数整合的设计示例。

2026-03-29
2026-03-27

#7056 [CI] Align with Paddle layer_norm kernel update

作者 EmmonsCurse · 合并时间 2026-03-27 22:58

基础设施 重要性 3.00 洞察度 2.00

更新 Qwen3VLMoe 测试基线以对齐 Paddle layer_norm 内核变更,确保 CI 稳定。

这是一个常规的 CI 维护变更,不值得精读,除非您负责测试基础设施或关注与上游 Paddle 的集成。建议关注点是测试基线的管理策略和外部依赖的同步机制,可作为案例学习如何应对上游库变更对 CI 的影响。

参与讨论