#7280 [Others] Fix typo
作者 Echo-Nie · 合并时间 2026-04-14 17:28
修复代码库中多处拼写错误,提升代码可读性和一致性。
该 PR 无需精读,适合快速浏览以了解代码规范改进。工程师可关注关键文件如 experts_manager.py 和 fp8_gemm 相关文件,学习如何保持命名一致性,但无设计决策需深入分析。
High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle
作者 Echo-Nie · 合并时间 2026-04-14 17:28
修复代码库中多处拼写错误,提升代码可读性和一致性。
该 PR 无需精读,适合快速浏览以了解代码规范改进。工程师可关注关键文件如 experts_manager.py 和 fp8_gemm 相关文件,学习如何保持命名一致性,但无设计决策需深入分析。
作者 luukunn · 合并时间 2026-04-14 17:25
为OpenAI协议FunctionDefinition添加strict字段,支持严格模式函数调用。
该PR变更简单直接,主要价值在于对齐OpenAI API规范。建议关注两个设计决策:1) 使用Optional[bool] = None而非bool = False来避免不必要的序列化字段。2) 保持与JsonSchemaResponseFormat.strict字段的一致性。对于理解FastDeploy的OpenAI协议扩展机制有参考价值。
作者 kevincheng2 · 合并时间 2026-04-14 16:15
修复PD分离场景下prefill节点未及时更新prefix cache命中信息导致的低命中率问题。
该PR值得精读,特别是关注prefill节点在PD分离架构中的cache状态管理设计。建议重点关注:1. update_cache_blocks参数选择的权衡(need_prefill_tokens vs num_computed_tokens)及其对cache一致性的影响;2. PD分离模式下prefill与decode节点职责划分的边界设计。
作者 BingooYang · 合并时间 2026-04-14 15:13
将依赖包 tool_helpers 替换为 fast_dataindex 以支持 ARM 平台安装。
该 PR 变更简单,无需精读。值得关注的点是依赖管理实践:在类似变更中,应始终添加版本约束以确保可复现性。建议团队后续考虑采纳 fastdeploy-bot 的建议,补充版本约束。
作者 xiaoxiaohehe001 · 合并时间 2026-04-14 11:36
修复多模态3D RoPE的dtype不一致和position_ids索引错误,确保推理正确性。
该PR值得精读,特别是对于从事多模态模型开发的工程师。关注点包括:1) 3D position_ids的构造和索引逻辑;2) dtype一致性的设计考量;3) 虽然review建议未被采纳,但dec_pos_ids保持int64的决策值得思考。
作者 yuanlehome · 合并时间 2026-04-14 11:32
修复.gitignore文件,排除.claude/settings.local.json而非整个.claude目录。
该PR无需精读,变更简单明了。对于技术管理者,可快速浏览以确认.gitignore配置的合理性;对于工程师,仅当需要了解.claude相关文件处理规则时才需关注。无重要设计决策可学习。
作者 zhupengyang · 合并时间 2026-04-14 11:31
为XPU平台添加GLM-4.5-air模型支持,优化MoE算子和RoPE实现。
建议技术管理者和工程师精读此PR,重点关注fused_noaux_tc算子的breaking change处理、RoPE优化设计以及版本稳定性权衡。工程师应检查下游依赖是否适配,并考虑采纳版本具体化建议以降低风险。
作者 ckl117 · 合并时间 2026-04-13 23:06
将attn_mask_q算子输出维度从4优化为2,减少内存占用。
建议关注这个PR的设计决策:通过减少维度来优化内存,但需要验证下游兼容性。值得精读以理解注意力掩码的表示优化,但需注意fastdeploy-bot提出的兼容性风险。
参与讨论