← 返回仓库详情

#6986 [Optimization] merge matmul and add

PaddlePaddle/FastDeploy · 作者 BingooYang · 合并时间 2026-04-03 18:02

分析状态已生成

文件变更 2提交数 11 · 评论 8

代码增减 +12 / -5

Optimization OP Refactor

执行摘要

将线性层中 matmul 和 add 操作合并为 linear，提升带 bias 情况的性能。

根据PR body描述，动机是性能优化。带bias情况下使用linear替换matmul和add可以加速，而不带bias时小shape下性能有下降，主要是由于Python层的if等调度开销。

建议精读此PR，因为它展示了核心算子优化中的性能权衡决策，例如在不带bias时保留matmul以避免小shape性能下降，值得学习如何平衡不同场景下的实现选择。

讨论亮点

review中，zhangbo9674建议直接使用paddle.nn.functional.linear，BingooYang初始改为paddle._C_ops.linear，但最终采纳functional版本。qingqing01建议单测中不要添加环境变量FLAGS_use_legacy_linear，以避免额外依赖，该建议被采纳并在最终提交中移除。AI审核确认变更逻辑正确，性能优化合理，并强调了不带bias时保留matmul的权衡。

实现拆解

实现集中在fastdeploy/model_executor/layers/linear.py文件的UnquantizedLinearMethod.apply方法中。修改后，如果layer有bias，则使用paddle.nn.functional.linear(x, layer.weight, bias)并添加assert验证bias形状；否则，保留使用paddle.matmul(x, layer.weight)以避免小shape性能损失。测试文件tests/e2e/utils/rollout_routing_replay_test_utils.py更新了基准路径从0402到0403，以反映变更。

文件	模块	状态	重要度
`fastdeploy/model_executor/layers/linear.py`	model_executor/layers	modified	8.0
`tests/e2e/utils/rollout_routing_replay_test_utils.py`	tests	modified	3.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

UnquantizedLinearMethod.apply

评论区精华

使用哪个 linear 函数 设计

zhangbo9674 建议使用 paddle.nn.functional.linear，BingooYang 初始改为 _C_ops.linear，但最终采纳 functional 版本。

结论：决定使用 paddle.nn.functional.linear 并在不带 bias 时保留 matmul，以平衡性能。 · 已解决

测试环境变量 测试

qingqing01 建议单测不增加环境变量 FLAGS_use_legacy_linear，以避免额外依赖。

结论：在最终提交中移除了环境变量设置，保持测试简洁。 · 已解决

风险与影响

风险包括：回归风险，因为更改了核心线性层实现，可能影响所有使用UnquantizedLinearMethod.apply的模型执行；性能下降风险，在不带bias的小shape场景下，由于保留matmul而非统一使用linear，可能产生调度开销；兼容性风险，如果有代码依赖旧的行为，但assert检查有助于提前发现问题。具体到文件linear.py，逻辑变更需确保在所有模型和场景下正确工作。

对用户：推理性能可能提升，尤其是在带bias的线性层，影响模型推理速度。对系统：核心模型执行路径变更，涉及model_executor/layers模块，可能影响所有基于线性层的操作。对团队：需要更新测试基准并监控性能变化，但变更范围有限，主要是优化而非功能新增。

核心路径变更性能权衡测试基准更新

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此PR通过将线性层中的matmul和add操作合并为paddle.nn.functional.linear，优化了未量化线性方法的性能。带bias时显著加速，小shape不带bias时略有性能下降，实现了性能与开销的权衡。变更影响核心模型执行路径，建议团队关注性能监控。

功能与动机

动机是性能优化。根据PR body描述：“带bias情况基本上有加速，不带bias情况小shape下性能有下降（主要是python层if等调度开销）”。目标是减少算子调用开销，提升推理效率。

实现拆解

核心模块：fastdeploy/model_executor/layers/linear.py中的UnquantizedLinearMethod.apply方法。
- 修改前：使用paddle.matmul和paddle.add。
- 修改后：带bias时使用paddle.nn.functional.linear，并添加assert验证bias形状；不带bias时保留paddle.matmul。
测试模块：tests/e2e/utils/rollout_routing_replay_test_utils.py更新基准路径，确保测试准确性。

评论区精华

zhangbo9674建议：“建议直接换成 paddle.nn.functional.linear”，引导了设计决策。
qingqing01建议：“建议单测不增加环境变量”，强调了测试简洁性，被采纳移除环境变量。
AI审核总结：“代码变更逻辑正确，性能优化合理”，确认了不带bias时保留matmul的权衡。

风险与影响

技术风险：核心路径变更可能引入回归bug，需通过测试覆盖验证；小shape不带bias场景性能下降，需监控实际影响。
影响范围：影响所有使用未量化线性层的模型，可能提升带bias操作的推理速度，但对团队要求更新测试基准。

关联脉络

与此前PR 7039（优化AllReduce合并）类似，都属于模型执行层的性能优化，反映了团队在核心算子优化上的持续努力。近期PR如7139支持GLM4.7 Flash，也涉及模型层优化，但本PR更专注于基础线性算子的改进。

支持 Prhub ♥

#6986 [Optimization] merge matmul and add

执行摘要

将线性层中 matmul 和 add 操作合并为 linear，提升带 bias 情况的性能。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论