← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态：已开启最近同步：2026-04-18 21:29 同步状态：空闲下次计划：2026-04-18 22:29

PR 列表

已合并 179 · 已分析 179

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-01

#7133 Revert "[BugFix][Speculative Decoding] Correct index calculation in speculate decoding operators"

作者 yuanlehome · 合并时间 2026-04-01 21:54

revert 重要性 6.00 洞察度 4.00

回滚推测解码算子索引修复，恢复CUDA kernel与Python参考实现对齐。

该PR值得技术管理者关注，因为它涉及核心推测解码算子的行为变更。建议： 1. **精读重点**：关注`speculate_set_stop_value_multi_seqs.cu`中的索引计算逻辑变化，理解回滚前后的差异。 2. **调查原因**：联系作者或相关团队了解回滚的具体原因，评估是否需要在后续PR中重新修复。 3. **验证测试**：确保单元测试充分覆盖回滚后的场景，避免测试用例本身存在逻辑问题。

查看完整分析 GitHub 原始 PR Speculative DecodingGPUbugfix

#7079 [Optimization]Fix tool parser

作者 luukunn · 合并时间 2026-04-01 21:20

重构重要性 7.00 洞察度 7.00

修复Ernie工具解析器流式解析bug，并重构为核心状态机方案。

建议技术管理者和工程师精读此PR，重点关注状态机设计决策和正则解析的风险权衡。值得关注的设计包括标签计数状态机的实现细节、流式解析的增量处理逻辑，以及单元测试中覆盖的边界case，以评估解析鲁棒性和潜在回归风险。

查看完整分析 GitHub 原始 PR bugfixOptimizationAPIServer

#7073 [OP] support deepgeem for sm103

作者 BingooYang · 合并时间 2026-04-01 21:01

功能重要性 4.00 洞察度 3.00

扩展DeepGemm对SM103架构的支持，适配新GPU硬件。

建议快速浏览以了解硬件适配模式，无需精读。值得关注的设计决策：使用`>=100`而非特定版本号来支持未来架构，体现了前瞻性设计；但review中关于分支合并的讨论值得思考，可借鉴以简化条件逻辑。对于负责量化或GPU优化的工程师，此PR展示了如何扩展版本特定功能。

查看完整分析 GitHub 原始 PR OPGPUQuantization

#7121 [BugFix][Speculative Decoding] Correct index calculation in speculate decoding operators

作者 lonelygsh · 合并时间 2026-04-01 20:36

缺陷修复重要性 5.00 洞察度 4.00

修复推测解码算子中的索引计算错误，确保推理结果正确性。

建议精读，特别是custom_ops/gpu_ops/speculate_decoding/speculate_set_stop_value_multi_seqs.cu的修改，以理解推测解码中停止序列匹配的索引计算逻辑。关注修复如何正确处理accept_idx和pre_ids的偏移，这是推测解码的核心机制之一。

查看完整分析 GitHub 原始 PR bugfixGPUSpeculative Decoding

#6993 [XPU] Refactor pre process

作者 cmcamdy · 合并时间 2026-04-01 20:29

重构重要性 7.00 洞察度 6.00

重构XPU前处理逻辑，统一推测解码的数据流并移除冗余参数。

建议技术管理者和工程师精读此PR，重点关注`speculate_pre_process`和`unified_update_model_status`的设计实现，理解数据结构变化如何优化推测解码流程。同时，注意测试覆盖不足的风险，建议补充更多集成测试。

查看完整分析 GitHub 原始 PR XPURefactorFeature

#7129 [Feature] Fix mixed cache-aware

作者 mouxinqq · 合并时间 2026-04-01 19:29

缺陷修复重要性 5.00 洞察度 4.00

修复mixed模式下cache-aware调度策略的SelectWorker和资源释放逻辑

该PR值得快速浏览，重点关注：1）SelectWorker参数传递的修复如何影响调度决策；2）ReleasePrefillTokens的补充是否与PD模式完全一致。对于理解cache-aware调度策略在mixed和PD模式下的差异有参考价值。

查看完整分析 GitHub 原始 PR SchedulerAPIServerbugfix

#6700 [Docs] Add docs for disaggregated deployment

作者 CyanScholar · 合并时间 2026-04-01 19:27

文档重要性 4.00 洞察度 3.00

新增PD分离部署的最佳实践文档，涵盖单机和跨机混合并行配置。

建议快速浏览以获取PD分离部署的关键实践要点，重点关注配置表格和启动脚本部分，但无需深入代码细节；对于部署人员，此文档值得精读以规避常见配置错误。

查看完整分析 GitHub 原始 PR docsFeatureKVCache

#7126 [Iluvatar] Fix cuda graph error for tp > 1 in ernie models

作者 wuyujiji · 合并时间 2026-04-01 19:13

缺陷修复重要性 6.00 洞察度 5.00

修复Iluvatar平台上ERNIE模型在tensor parallel大于1时的cuda graph错误。

该PR值得精读以理解Iluvatar平台上的cuda graph处理策略和分布式通信优化。重点关注`tensor_model_parallel_all_reduce`函数中的平台分支逻辑设计，以及模型运行器中的条件禁用机制，这些是适配异构平台的关键技术点。

查看完整分析 GitHub 原始 PR IluvatarbugfixModels

第 17 / 23 页 · 共 179 条

上一页 1 … 15 16 17 18 19 … 23 下一页

支持 Prhub ♥