Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 21:29 同步状态:空闲 下次计划:2026-04-18 22:29

PR 列表

已合并 179 · 已分析 179
更多筛选
2026-04-01
revert 重要性 6.00 洞察度 4.00

回滚推测解码算子索引修复,恢复CUDA kernel与Python参考实现对齐。

该PR值得技术管理者关注,因为它涉及核心推测解码算子的行为变更。建议: 1. **精读重点**:关注`speculate_set_stop_value_multi_seqs.cu`中的索引计算逻辑变化,理解回滚前后的差异。 2. **调查原因**:联系作者或相关团队了解回滚的具体原因,评估是否需要在后续PR中重新修复。 3. **验证测试**:确保单元测试充分覆盖回滚后的场景,避免测试用例本身存在逻辑问题。

#7079 [Optimization]Fix tool parser

作者 luukunn · 合并时间 2026-04-01 21:20

重构 重要性 7.00 洞察度 7.00

修复Ernie工具解析器流式解析bug,并重构为核心状态机方案。

建议技术管理者和工程师精读此PR,重点关注状态机设计决策和正则解析的风险权衡。值得关注的设计包括标签计数状态机的实现细节、流式解析的增量处理逻辑,以及单元测试中覆盖的边界case,以评估解析鲁棒性和潜在回归风险。

#7073 [OP] support deepgeem for sm103

作者 BingooYang · 合并时间 2026-04-01 21:01

功能 重要性 4.00 洞察度 3.00

扩展DeepGemm对SM103架构的支持,适配新GPU硬件。

建议快速浏览以了解硬件适配模式,无需精读。值得关注的设计决策:使用`>=100`而非特定版本号来支持未来架构,体现了前瞻性设计;但review中关于分支合并的讨论值得思考,可借鉴以简化条件逻辑。对于负责量化或GPU优化的工程师,此PR展示了如何扩展版本特定功能。

缺陷修复 重要性 5.00 洞察度 4.00

修复推测解码算子中的索引计算错误,确保推理结果正确性。

建议精读,特别是custom_ops/gpu_ops/speculate_decoding/speculate_set_stop_value_multi_seqs.cu的修改,以理解推测解码中停止序列匹配的索引计算逻辑。关注修复如何正确处理accept_idx和pre_ids的偏移,这是推测解码的核心机制之一。

#6993 [XPU] Refactor pre process

作者 cmcamdy · 合并时间 2026-04-01 20:29

重构 重要性 7.00 洞察度 6.00

重构XPU前处理逻辑,统一推测解码的数据流并移除冗余参数。

建议技术管理者和工程师精读此PR,重点关注`speculate_pre_process`和`unified_update_model_status`的设计实现,理解数据结构变化如何优化推测解码流程。同时,注意测试覆盖不足的风险,建议补充更多集成测试。

#7129 [Feature] Fix mixed cache-aware

作者 mouxinqq · 合并时间 2026-04-01 19:29

缺陷修复 重要性 5.00 洞察度 4.00

修复mixed模式下cache-aware调度策略的SelectWorker和资源释放逻辑

该PR值得快速浏览,重点关注:1)SelectWorker参数传递的修复如何影响调度决策;2)ReleasePrefillTokens的补充是否与PD模式完全一致。对于理解cache-aware调度策略在mixed和PD模式下的差异有参考价值。

#6700 [Docs] Add docs for disaggregated deployment

作者 CyanScholar · 合并时间 2026-04-01 19:27

文档 重要性 4.00 洞察度 3.00

新增PD分离部署的最佳实践文档,涵盖单机和跨机混合并行配置。

建议快速浏览以获取PD分离部署的关键实践要点,重点关注配置表格和启动脚本部分,但无需深入代码细节;对于部署人员,此文档值得精读以规避常见配置错误。

缺陷修复 重要性 6.00 洞察度 5.00

修复Iluvatar平台上ERNIE模型在tensor parallel大于1时的cuda graph错误。

该PR值得精读以理解Iluvatar平台上的cuda graph处理策略和分布式通信优化。重点关注`tensor_model_parallel_all_reduce`函数中的平台分支逻辑设计,以及模型运行器中的条件禁用机制,这些是适配异构平台的关键技术点。

参与讨论