Prhub
← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

聚合结果

RL 相关 PR

2026-04-17

#7430 [Bugfix][RL] fix control request timeout in async update weights pipe…

作者 jackyYang6 · 合并时间 2026-04-17 16:45

缺陷修复 重要性 4.47 洞察度 4.00

修复异步RL权重更新流程中控制请求的竞态超时问题。

bugfix RL APIServer

该PR值得精读,因为它展示了一个典型的竞态条件修复案例:通过调整异步操作顺序来消除时序问题。关注点在于 `run_control_method` 中响应通道注册与请求发送的顺序调整,这是分布式系统中控制流设计的常见模式。

2026-04-15

#7378 [RL] Add clear_graph_opt_backend for glm4_mtp

作者 Deleter-D · 合并时间 2026-04-15 19:44

缺陷修复 重要性 4.88 洞察度 2.00

修正拼写错误并添加clear_graph_opt_backend方法到glm4_mtp模型。

RL bugfix Models Graph Optimization

该PR值得快速浏览以了解拼写修正和模型方法扩展,但无需深入分析设计决策;关注点在于代码一致性和测试更新。

#7399 [RL] check init_flash_attn_version log

作者 ckl117 · 合并时间 2026-04-15 11:05

缺陷修复 重要性 3.53 洞察度 3.00

修正Flash Attention V3支持的硬件架构判断条件,从SM>=89改为仅SM90。

RL bugfix Optimization

该PR值得快速浏览,重点关注条件修改的合理性:是否基于Paddle对SM架构的实际支持情况调整?建议结合硬件文档确认SM89是否应排除。对于维护者,可参考AI Review更新PR描述以保持准确性。

2026-04-14

#7393 [BugFix] Fix RL moe gate type

作者 Sunny-bot1 · 合并时间 2026-04-14 20:04

缺陷修复 重要性 3.00 洞察度 2.00

为RL配置类新增MoE gate层FP32精度参数,修复训练推理精度不一致问题。

RL MoE bugfix

该PR变更简单直接,无需精读。值得关注的是review中关于配置默认值一致性的讨论,这反映了配置设计中的上下文差异。对于涉及RL和MoE的开发者,了解这个参数的存在和默认值即可。

2026-04-13

#7308 [TI-consistent] support quant use pow2scale

作者 liuruyan · 合并时间 2026-04-13 15:01

功能 重要性 6.00 洞察度 5.00

新增环境变量支持FP8量化使用pow2scale模式,以对齐训练推理一致性。

Quantization MoE RL Feature

建议关注量化模式控制的设计决策,特别是环境变量与现有quant_config的整合方式,以及review中提到的逻辑不一致问题,以理解如何维护代码一致性和正确性。此PR值得精读,可学习训练推理对齐的实现模式。

2026-04-11

#7337 [RL]moe bf16 ep support paddle batch_gemm

作者 ckl117 · 合并时间 2026-04-11 21:51

功能 重要性 6.00 洞察度 5.00

为MoE BF16 EP prefill阶段添加Paddle batched_gemm支持,对齐训练实现。

RL MoE Optimization OP

建议技术管理者和工程师精读此PR,重点关注: 1. **设计决策**:为何选择batched_gemm而非原有compute_ffn,以及如何权衡CUDAGraph兼容性。 2. **风险点**:down_proj_bias处理缺失和外部依赖函数可用性,需确认是否在后续提交中修复。 3. **测试补充**:建议添加FD_MOE_PROB_IN_ADVANCE相关的单元测试,确保新路径正确性。 PR展示了推理与训练对齐的典型模式,值得学习其实现思路。

#7316 [RL] change glm rope_emb calculation

作者 zoooo0820 · 合并时间 2026-04-11 18:36

optimization 重要性 6.00 洞察度 6.00

优化GLM模型的RoPE计算,性能提升约65%。

RL Optimization OP

值得精读,尤其是CUDA kernel修改部分,了解性能优化技巧;关注设计权衡:性能提升vs通用性,以及环境变量控制的讨论。

2026-04-10

#7269 [RL] change rms norm for glm

作者 zhangbo9674 · 合并时间 2026-04-10 16:02

功能 重要性 6.00 洞察度 7.00

为GLM4 MoE模型添加环境变量控制的Paddle phi RMSNorm支持,替换默认归一化实现。

RL Models Optimization Feature

建议技术管理者仔细阅读此PR,重点关注rms_norm_func的实现细节和讨论中的正确性问题;工程师可学习环境变量控制机制和proxy模式的设计权衡;由于缺少测试,合并后应补充单元测试和精度验证以确保稳定性。