Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 18:18 同步状态:空闲 下次计划:2026-04-18 19:18

PR 列表

已合并 178 · 已分析 178
更多筛选
2026-04-14

#7280 [Others] Fix typo

作者 Echo-Nie · 合并时间 2026-04-14 17:28

其他 重要性 1.00 洞察度 1.00

修复代码库中多处拼写错误,提升代码可读性和一致性。

该 PR 无需精读,适合快速浏览以了解代码规范改进。工程师可关注关键文件如 experts_manager.py 和 fp8_gemm 相关文件,学习如何保持命名一致性,但无设计决策需深入分析。

#7307 [DataProcessor] add strict

作者 luukunn · 合并时间 2026-04-14 17:25

功能 重要性 4.00 洞察度 3.00

为OpenAI协议FunctionDefinition添加strict字段,支持严格模式函数调用。

该PR变更简单直接,主要价值在于对齐OpenAI API规范。建议关注两个设计决策:1) 使用Optional[bool] = None而非bool = False来避免不必要的序列化字段。2) 保持与JsonSchemaResponseFormat.strict字段的一致性。对于理解FastDeploy的OpenAI协议扩展机制有参考价值。

缺陷修复 重要性 6.00 洞察度 5.00

修复PD分离场景下prefill节点未及时更新prefix cache命中信息导致的低命中率问题。

该PR值得精读,特别是关注prefill节点在PD分离架构中的cache状态管理设计。建议重点关注:1. update_cache_blocks参数选择的权衡(need_prefill_tokens vs num_computed_tokens)及其对cache一致性的影响;2. PD分离模式下prefill与decode节点职责划分的边界设计。

#7353 [Others] replace tool_helpers to fast_dataindex

作者 BingooYang · 合并时间 2026-04-14 15:13

基础设施 重要性 3.00 洞察度 2.00

将依赖包 tool_helpers 替换为 fast_dataindex 以支持 ARM 平台安装。

该 PR 变更简单,无需精读。值得关注的点是依赖管理实践:在类似变更中,应始终添加版本约束以确保可复现性。建议团队后续考虑采纳 fastdeploy-bot 的建议,补充版本约束。

缺陷修复 重要性 5.00 洞察度 4.00

修复多模态3D RoPE的dtype不一致和position_ids索引错误,确保推理正确性。

该PR值得精读,特别是对于从事多模态模型开发的工程师。关注点包括:1) 3D position_ids的构造和索引逻辑;2) dtype一致性的设计考量;3) 虽然review建议未被采纳,但dec_pos_ids保持int64的决策值得思考。

#7381 [BugFix] fix gitignore claude

作者 yuanlehome · 合并时间 2026-04-14 11:32

缺陷修复 重要性 2.00 洞察度 1.00

修复.gitignore文件,排除.claude/settings.local.json而非整个.claude目录。

该PR无需精读,变更简单明了。对于技术管理者,可快速浏览以确认.gitignore配置的合理性;对于工程师,仅当需要了解.claude相关文件处理规则时才需关注。无重要设计决策可学习。

功能 重要性 6.00 洞察度 6.00

为XPU平台添加GLM-4.5-air模型支持,优化MoE算子和RoPE实现。

建议技术管理者和工程师精读此PR,重点关注fused_noaux_tc算子的breaking change处理、RoPE优化设计以及版本稳定性权衡。工程师应检查下游依赖是否适配,并考虑采纳版本具体化建议以降低风险。

2026-04-13

#7371 [OP][RL]update attn_mask_q 2

作者 ckl117 · 合并时间 2026-04-13 23:06

optimization 重要性 5.00 洞察度 4.00

将attn_mask_q算子输出维度从4优化为2,减少内存占用。

建议关注这个PR的设计决策:通过减少维度来优化内存,但需要验证下游兼容性。值得精读以理解注意力掩码的表示优化,但需注意fastdeploy-bot提出的兼容性风险。

参与讨论