Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 17:16 同步状态:空闲 下次计划:2026-04-18 18:16

PR 列表

已合并 178 · 已分析 178
更多筛选
2026-04-18
缺陷修复 重要性 5.54 洞察度 5.00

修复投机解码重复惩罚核函数越界访问,并将默认验证策略改为target_match。

该PR值得精读,特别是CUDA核函数修复部分,展示了在并行计算中处理边界条件的常见陷阱。关注点:1. `update_repeat_times`核函数中循环上界从`length_id`到`cur_len[bi]`的变更逻辑;2. 默认配置变更的设计决策,反映了项目对常用功能的优化。建议结合review评论,补充相关测试和文档更新。

2026-04-17
功能 重要性 6.50 洞察度 5.00

为PD分离部署下的MTP投机解码新增prefill节点首token的logprob支持。

该PR值得精读,重点关注以下设计决策: 1. **消息结构体抽取**:将 `msgdata` 和 `batch_msgdata` 抽取到共享头文件,减少了代码重复,但宏命名存在冲突风险,可学习其重构思路。 2. **输出保存逻辑重构**:`save_output_specualate` 函数新增参数以区分prefill和decode节点,体现了PD分离架构下的模块化设计,但需注意数据一致性和参数传递的边界条件。 3. **算子语义设计**:`mtp_save_first_token_with_topk` 算子的实现展示了如何扩展现有功能(添加logprob支持),但 `cur_token_num` 计算与上游语义的冲突揭示了接口设计的重要性。 建议结合review评论,在实际部署前验证非MTP投机方法的兼容性,并补充单元测试。

#7453 [Iluvatar] fix ci error and update readme

作者 wuyujiji · 合并时间 2026-04-17 20:42

缺陷修复 重要性 4.01 洞察度 3.00

修复 Iluvatar 后端 MoE 层接口签名不一致问题并更新安装文档。

该 PR 值得快速浏览,重点关注 MoE 层接口对齐的设计决策,了解如何通过添加可选参数来保持向后兼容性;同时可参考文档更新模式,学习如何同步维护中英文技术文档。

缺陷修复 重要性 4.47 洞察度 4.00

修复异步RL权重更新流程中控制请求的竞态超时问题。

该PR值得精读,因为它展示了一个典型的竞态条件修复案例:通过调整异步操作顺序来消除时序问题。关注点在于 `run_control_method` 中响应通道注册与请求发送的顺序调整,这是分布式系统中控制流设计的常见模式。

缺陷修复 重要性 4.96 洞察度 7.00

修复投机解码场景下调度器token预算计算错误,避免显存OOM。

该PR值得精读,重点关注调度器预算计算的设计权衡:为何选择预减而非逐请求扣减?临时下限512的选取依据是什么?建议结合review讨论思考更优方案。

功能 重要性 5.01 洞察度 5.00

为 Mooncake KVCache 存储后端实现大缓冲区分块注册,支持超过 RDMA MR 大小限制的场景。

该 PR 值得精读,重点关注分块注册的设计决策、环境变量处理机制以及 review 中讨论的未解决疑虑(如资源泄漏、对齐问题)。建议结合后续 PR 观察是否补充错误处理和测试。

2026-04-16
基础设施 重要性 5.31 洞察度 4.00

为CI添加pytest失败日志收集与持久化功能,提升调试效率。

该PR值得快速浏览,重点关注`pytest_runtest_makereport`钩子的实现方式,以及文件名清洗和导入结构调整的设计决策。对于CI基础设施维护者,可借鉴其日志收集机制以优化其他项目的测试调试流程。

功能 重要性 6.09 洞察度 5.00

为 latent MOE 模型添加 Cutlass backend 支持,允许在 MoE 计算前后应用投影层。

该 PR 值得精读,重点关注 Cutlass backend 中投影层的实现逻辑和基类接口的设计决策。建议关注 review 中讨论的兼容性风险,并考虑在后续 PR 中修复签名不一致问题。

参与讨论