Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 19:21 同步状态:空闲 下次计划:2026-04-18 20:21

PR 列表

已合并 178 · 已分析 178
更多筛选
2026-03-30

#7042 [RL] Adapt async rollout checkpoint update flow

作者 jackyYang6 · 合并时间 2026-03-30 19:19

缺陷修复 重要性 6.00 洞察度 4.00

适配异步rollout检查点更新流,将update_weights接口参数从rsync_config改为verify_checksum。

建议工程师精读此PR,重点关注接口变更对下游集成的影响,以及dynamic_weight_manager.py中的权重更新逻辑重构。同时,注意测试覆盖不足的风险,建议补充单元测试。

#7078 [Iluvatar] Support wi4a16 group_gemm

作者 wuyujiji · 合并时间 2026-03-30 19:03

功能 重要性 6.00 洞察度 5.00

新增 Iluvatar GPU 对 wi4a16 group gemm 的支持,优化量化配置并修复 CI。

建议技术管理者和工程师关注以下方面: - 精读 `wi4a16_group_gemm.cu` 和 `wi4a16_weight_quantize.cu`,理解量化设计和 CUDA 实现细节,以评估性能和正确性。 - 注意 `iluvatar_model_runner.py` 中的兼容性限制,避免在不支持 CUDA 图的场景下使用 wi4a16。 - 参考新增测试脚本,确保类似模型能正确集成,并考虑扩展测试覆盖以降低风险。

#7062 [append attention] clean code

作者 zhoutianzi666 · 合并时间 2026-03-30 15:07

重构 重要性 4.00 洞察度 4.00

清理 GPU 多查询 attention 内核代码,移除冗余变量和条件检查。

建议工程师在修改 GPU 内核时参考此 PR,了解如何简化边界逻辑和添加编译时检查;对于一般读者,可快速浏览以理解代码清理模式,但非核心学习材料。

#7030 [Optimization]Merge Text processor

作者 luukunn · 合并时间 2026-03-30 15:02

重构 重要性 6.00 洞察度 7.00

通过新建抽象基类统一文本处理器逻辑,消除重复代码以降低维护成本。

建议技术管理者和工程师精读此 PR,重点关注 BaseTextProcessor 的设计决策,如抽象接口的定义和公共逻辑的提取方式,这展示了代码重构的最佳实践。同时,需审查 review 中指出的未解决问题(如 ids2tokens 返回值错误),并在后续迭代中优先修复,以避免潜在的生产环境 bug。

其他 重要性 5.00 洞察度 3.00

回滚为预防NaN生成而添加的锁,移除锁可能恢复并发风险。

建议关注此回滚是否合理,需检查#7046的原始问题是否已通过其他方式解决,或锁是否真的不必要。对于工程师,应review相关缓存逻辑以确保并发安全。

#7069 Fix moe topk select bug in cudagraph

作者 zhangbo9674 · 合并时间 2026-03-30 14:24

缺陷修复 重要性 5.00 洞察度 4.00

修复 CUDA Graph 中 MoE top-k 选择 bug,优化组掩码构建和权重采样逻辑。

建议工程师在涉及 CUDA Graph 或 MoE 层开发时,精读此 PR 以了解 API 选择和性能权衡;重点关注 `index_sample` 的适用性评估,并考虑 Copilot 的性能优化建议,以避免潜在问题。

参与讨论