Prhub
← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

聚合结果

Graph Optimization 相关 PR

2026-04-15

#7378 [RL] Add clear_graph_opt_backend for glm4_mtp

作者 Deleter-D · 合并时间 2026-04-15 19:44

缺陷修复 重要性 4.88 洞察度 2.00

修正拼写错误并添加clear_graph_opt_backend方法到glm4_mtp模型。

RL bugfix Models Graph Optimization

该PR值得快速浏览以了解拼写修正和模型方法扩展,但无需深入分析设计决策;关注点在于代码一致性和测试更新。

2026-04-10
功能 重要性 6.00 洞察度 6.00

支持通过CLI配置量化参数并添加CUDA图捕获顺序验证,提升配置灵活性和系统可靠性。

Quantization Graph Optimization Feature

建议技术管理者和工程师精读quantization/__init__.py中的parse_quant_config函数和cudagraph_piecewise_backend.py中的_validate_decode_capture_order方法,关注配置优先级设计、捕获验证机制以及跨平台处理策略。这些设计决策对后续配置扩展和优化有参考价值。

2026-04-09
optimization 重要性 5.00 洞察度 6.00

优化DSA注意力后端,移除CUDA Graph捕获时的同步操作和不必要的内存拷贝。

Optimization Graph Optimization OP Models

该PR值得精读,尤其是view替代transpose+contiguous的设计决策。关注点: 1. 理解view操作在维度为1时的安全性原理,以及如何通过断言确保条件成立。 2. 学习fastdeploy-bot的review分析,包括stride计算和与C++ kernel的交互细节。 3. 注意优化对模型特定形状(头数为1)的依赖,避免盲目复制到其他场景。