← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态：已开启最近同步：2026-04-18 18:18 同步状态：空闲下次计划：2026-04-18 19:18

PR 列表

已合并 178 · 已分析 178

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-14

#7280 [Others] Fix typo

作者 Echo-Nie · 合并时间 2026-04-14 17:28

其他重要性 1.00 洞察度 1.00

修复代码库中多处拼写错误，提升代码可读性和一致性。

该 PR 无需精读，适合快速浏览以了解代码规范改进。工程师可关注关键文件如 experts_manager.py 和 fp8_gemm 相关文件，学习如何保持命名一致性，但无设计决策需深入分析。

查看完整分析 GitHub 原始 PR OthersbugfixOP

#7307 [DataProcessor] add strict

作者 luukunn · 合并时间 2026-04-14 17:25

功能重要性 4.00 洞察度 3.00

为OpenAI协议FunctionDefinition添加strict字段，支持严格模式函数调用。

该PR变更简单直接，主要价值在于对齐OpenAI API规范。建议关注两个设计决策：1) 使用Optional[bool] = None而非bool = False来避免不必要的序列化字段。2) 保持与JsonSchemaResponseFormat.strict字段的一致性。对于理解FastDeploy的OpenAI协议扩展机制有参考价值。

查看完整分析 GitHub 原始 PR DataProcessorAPIServerFeature

#7364 [BugFix][PD Disaggregation][KVCache] Fix low cache hit rate in PD split (disaggregation) scenario

作者 kevincheng2 · 合并时间 2026-04-14 16:15

缺陷修复重要性 6.00 洞察度 5.00

修复PD分离场景下prefill节点未及时更新prefix cache命中信息导致的低命中率问题。

该PR值得精读，特别是关注prefill节点在PD分离架构中的cache状态管理设计。建议重点关注：1. update_cache_blocks参数选择的权衡（need_prefill_tokens vs num_computed_tokens）及其对cache一致性的影响；2. PD分离模式下prefill与decode节点职责划分的边界设计。

查看完整分析 GitHub 原始 PR bugfixKVCacheScheduler

#7353 [Others] replace tool_helpers to fast_dataindex

作者 BingooYang · 合并时间 2026-04-14 15:13

基础设施重要性 3.00 洞察度 2.00

将依赖包 tool_helpers 替换为 fast_dataindex 以支持 ARM 平台安装。

该 PR 变更简单，无需精读。值得关注的点是依赖管理实践：在类似变更中，应始终添加版本约束以确保可复现性。建议团队后续考虑采纳 fastdeploy-bot 的建议，补充版本约束。

查看完整分析 GitHub 原始 PR Othersinfra

#7274 [BugFix] Fix multimodal 3D RoPE dtype and position_ids indexing error

作者 xiaoxiaohehe001 · 合并时间 2026-04-14 11:36

缺陷修复重要性 5.00 洞察度 4.00

修复多模态3D RoPE的dtype不一致和position_ids索引错误，确保推理正确性。

该PR值得精读，特别是对于从事多模态模型开发的工程师。关注点包括：1) 3D position_ids的构造和索引逻辑；2) dtype一致性的设计考量；3) 虽然review建议未被采纳，但dec_pos_ids保持int64的决策值得思考。

查看完整分析 GitHub 原始 PR bugfixModelsOP

#7381 [BugFix] fix gitignore claude

作者 yuanlehome · 合并时间 2026-04-14 11:32

缺陷修复重要性 2.00 洞察度 1.00

修复.gitignore文件，排除.claude/settings.local.json而非整个.claude目录。

该PR无需精读，变更简单明了。对于技术管理者，可快速浏览以确认.gitignore配置的合理性；对于工程师，仅当需要了解.claude相关文件处理规则时才需关注。无重要设计决策可学习。

查看完整分析 GitHub 原始 PR bugfixinfraOthers

#7071 [XPU] support glm-4.5-air (fix neox+partial_rotary_factor)

作者 zhupengyang · 合并时间 2026-04-14 11:31

功能重要性 6.00 洞察度 6.00

为XPU平台添加GLM-4.5-air模型支持，优化MoE算子和RoPE实现。

建议技术管理者和工程师精读此PR，重点关注fused_noaux_tc算子的breaking change处理、RoPE优化设计以及版本稳定性权衡。工程师应检查下游依赖是否适配，并考虑采纳版本具体化建议以降低风险。

查看完整分析 GitHub 原始 PR XPUModelsOP

2026-04-13

#7371 [OP][RL]update attn_mask_q 2

作者 ckl117 · 合并时间 2026-04-13 23:06

optimization 重要性 5.00 洞察度 4.00

将attn_mask_q算子输出维度从4优化为2，减少内存占用。

建议关注这个PR的设计决策：通过减少维度来优化内存，但需要验证下游兼容性。值得精读以理解注意力掩码的表示优化，但需注意fastdeploy-bot提出的兼容性风险。

查看完整分析 GitHub 原始 PR OPOptimizationGPU

第 5 / 23 页 · 共 178 条

上一页 1 … 3 4 5 6 7 … 23 下一页

支持 Prhub ♥