← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

Optimization · 67

bugfix · 55

Feature · 37

OP · 37

CI · 33

test · 31

infra · 30

GPU · 28

Models · 25

Others · 21

APIServer · 18

MoE · 18

Scheduler · 18

Speculative Decoding · 18

KVCache · 17

Refactor · 16

RL · 14

XPU · 14

Engine · 12

Quantization · 11

docs · 10

DataProcessor · 8

Logging · 8

Attention · 6

Benchmark · 3

Graph Optimization · 3

Iluvatar · 3

Loader · 3

FlashInfer · 2

FDConfig · 1

Metax · 1

PD Disaggregation · 1

Security · 1

聚合结果

RL 相关 PR

2026-04-17

#7430 [Bugfix][RL] fix control request timeout in async update weights pipe…

作者 jackyYang6 · 合并时间 2026-04-17 16:45

缺陷修复重要性 4.47 洞察度 4.00

修复异步RL权重更新流程中控制请求的竞态超时问题。

bugfix RL APIServer

该PR值得精读，因为它展示了一个典型的竞态条件修复案例：通过调整异步操作顺序来消除时序问题。关注点在于 `run_control_method` 中响应通道注册与请求发送的顺序调整，这是分布式系统中控制流设计的常见模式。

查看完整分析 GitHub 原始 PR

2026-04-15

#7378 [RL] Add clear_graph_opt_backend for glm4_mtp

作者 Deleter-D · 合并时间 2026-04-15 19:44

缺陷修复重要性 4.88 洞察度 2.00

修正拼写错误并添加clear_graph_opt_backend方法到glm4_mtp模型。

RL bugfix Models Graph Optimization

该PR值得快速浏览以了解拼写修正和模型方法扩展，但无需深入分析设计决策；关注点在于代码一致性和测试更新。

查看完整分析 GitHub 原始 PR

#7399 [RL] check init_flash_attn_version log

作者 ckl117 · 合并时间 2026-04-15 11:05

缺陷修复重要性 3.53 洞察度 3.00

修正Flash Attention V3支持的硬件架构判断条件，从SM>=89改为仅SM90。

RL bugfix Optimization

该PR值得快速浏览，重点关注条件修改的合理性：是否基于Paddle对SM架构的实际支持情况调整？建议结合硬件文档确认SM89是否应排除。对于维护者，可参考AI Review更新PR描述以保持准确性。

查看完整分析 GitHub 原始 PR

2026-04-14

#7393 [BugFix] Fix RL moe gate type

作者 Sunny-bot1 · 合并时间 2026-04-14 20:04

缺陷修复重要性 3.00 洞察度 2.00

为RL配置类新增MoE gate层FP32精度参数，修复训练推理精度不一致问题。

RL MoE bugfix

该PR变更简单直接，无需精读。值得关注的是review中关于配置默认值一致性的讨论，这反映了配置设计中的上下文差异。对于涉及RL和MoE的开发者，了解这个参数的存在和默认值即可。

查看完整分析 GitHub 原始 PR

2026-04-13

#7308 [TI-consistent] support quant use pow2scale

作者 liuruyan · 合并时间 2026-04-13 15:01

功能重要性 6.00 洞察度 5.00

新增环境变量支持FP8量化使用pow2scale模式，以对齐训练推理一致性。

Quantization MoE RL Feature

建议关注量化模式控制的设计决策，特别是环境变量与现有quant_config的整合方式，以及review中提到的逻辑不一致问题，以理解如何维护代码一致性和正确性。此PR值得精读，可学习训练推理对齐的实现模式。

查看完整分析 GitHub 原始 PR

2026-04-11

#7337 [RL]moe bf16 ep support paddle batch_gemm

作者 ckl117 · 合并时间 2026-04-11 21:51

功能重要性 6.00 洞察度 5.00

为MoE BF16 EP prefill阶段添加Paddle batched_gemm支持，对齐训练实现。

RL MoE Optimization OP

建议技术管理者和工程师精读此PR，重点关注： 1. **设计决策**：为何选择batched_gemm而非原有compute_ffn，以及如何权衡CUDAGraph兼容性。 2. **风险点**：down_proj_bias处理缺失和外部依赖函数可用性，需确认是否在后续提交中修复。 3. **测试补充**：建议添加FD_MOE_PROB_IN_ADVANCE相关的单元测试，确保新路径正确性。 PR展示了推理与训练对齐的典型模式，值得学习其实现思路。

查看完整分析 GitHub 原始 PR

#7316 [RL] change glm rope_emb calculation

作者 zoooo0820 · 合并时间 2026-04-11 18:36

optimization 重要性 6.00 洞察度 6.00

优化GLM模型的RoPE计算，性能提升约65%。

RL Optimization OP

值得精读，尤其是CUDA kernel修改部分，了解性能优化技巧；关注设计权衡：性能提升vs通用性，以及环境变量控制的讨论。

查看完整分析 GitHub 原始 PR

2026-04-10

#7269 [RL] change rms norm for glm

作者 zhangbo9674 · 合并时间 2026-04-10 16:02

功能重要性 6.00 洞察度 7.00

为GLM4 MoE模型添加环境变量控制的Paddle phi RMSNorm支持，替换默认归一化实现。

RL Models Optimization Feature

建议技术管理者仔细阅读此PR，重点关注rms_norm_func的实现细节和讨论中的正确性问题；工程师可学习环境变量控制机制和proxy模式的设计权衡；由于缺少测试，合并后应补充单元测试和精度验证以确保稳定性。

查看完整分析 GitHub 原始 PR

第 1 / 2 页 · 共 14 条

1 2 下一页