Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 22:32 同步状态:空闲 下次计划:2026-04-18 23:32

PR 列表

已合并 179 · 已分析 179
更多筛选
2026-04-03
基础设施 重要性 3.00 洞察度 2.00

将RL构建工作流runner从GPU-Build改为GPU-Build-RL,并更新基础镜像和Paddle whl URL。

该PR值得CI维护者精读,以理解RL构建环境的资源分配优化。关注点包括:runner切换的合理性、基础镜像和Paddle whl URL更新的兼容性验证,以及review中提及的问题是否已妥善解决。对于其他工程师,可简要了解CI配置的演进。

#6986 [Optimization] merge matmul and add

作者 BingooYang · 合并时间 2026-04-03 18:02

optimization 重要性 6.00 洞察度 6.00

将线性层中matmul和add操作合并为linear,提升带bias情况的性能。

建议精读此PR,因为它展示了核心算子优化中的性能权衡决策,例如在不带bias时保留matmul以避免小shape性能下降,值得学习如何平衡不同场景下的实现选择。

#7139 [Models]support GLM4.7 Flash

作者 chang-wenbin · 合并时间 2026-04-03 17:41

功能 重要性 6.00 洞察度 5.00

为GLM4.7 Flash模型添加支持,统一forward参数并处理MLA注意力头部padding。

建议工程师精读此PR,关注ForwardMeta的统一参数传递设计,以及MLA注意力中padding处理的技术权衡。对于维护者,需验证rope_scaling逻辑的正确性和padding的边界条件,并补充测试覆盖。

#7120 [BugFix] fix flashinfer-cutedsl moe nvfp4

作者 lizexu123 · 合并时间 2026-04-03 15:43

缺陷修复 重要性 6.00 洞察度 6.00

修复 NVFP4 环境变量类型并优化 flashinfer 条件导入,适配非 Blackwell GPU 环境。

对于从事量化优化或 GPU 相关开发的工程师,此 PR 值得精读,特别是 is_nvfp4_supported() 的设计和条件导入的实现,展示了如何处理硬件特定依赖的优雅方式。关注 deep_ep 导入的修复和文档更新部分,以了解跨平台兼容性的最佳实践。

#7172 fix MTP bugs in TP and overlap

作者 huicongyao · 合并时间 2026-04-03 14:19

缺陷修复 重要性 5.00 洞察度 5.00

修复MTP在TP并行和重叠调度场景下的两个关键bug

该PR值得精读,特别是关注推测解码在TP并行下的输出同步机制设计,以及重叠调度中token预测算法的优化思路。建议重点查看:1)rank检查如何避免冗余通信;2)token预测公式从复杂计算简化的设计权衡。

缺陷修复 重要性 6.00 洞察度 5.00

修复调度器在请求状态转换时槽位计数不一致的bug,防止请求无槽位进入运行状态。

该PR值得精读,特别是对于负责调度器模块的工程师。重点关注resource_manager_v1.py中新的槽位计数逻辑设计,这是调度器正确性的关键保障。建议结合近期调度器相关的PR(如#7152、#7129)一起阅读,理解调度器状态的完整演进。

缺陷修复 重要性 6.00 洞察度 5.00

修复RL模块异步权重加载OOM问题,优化内存管理并切换版本文件格式。

该PR值得精读,重点关注: 1. OOM修复策略:通过延迟初始化和条件性共享buffer来避免内存峰值,体现了对Paddle参数内存管理的深入理解。 2. 版本文件格式迁移的设计决策:从简单文本转向结构化YAML,但需权衡向后兼容性。 3. 建议结合AI Review的提示,考虑补充单元测试和文档说明。

缺陷修复 重要性 4.00 洞察度 3.00

为Mooncake存储设置默认MC_MAX_MR_SIZE环境变量,避免注册时挂起。

该PR值得快速浏览,重点关注:1) 环境变量默认值设置模式(先检查后设置)值得借鉴;2) Copilot关于单位准确性和魔法数字处理的建议对代码质量有参考价值;3) 可作为配置管理最佳实践的简单案例。

参与讨论