← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态：已开启最近同步：2026-04-18 19:21 同步状态：空闲下次计划：2026-04-18 20:21

PR 列表

已合并 178 · 已分析 178

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-30

#7042 [RL] Adapt async rollout checkpoint update flow

作者 jackyYang6 · 合并时间 2026-03-30 19:19

缺陷修复重要性 6.00 洞察度 4.00

适配异步rollout检查点更新流，将update_weights接口参数从rsync_config改为verify_checksum。

建议工程师精读此PR，重点关注接口变更对下游集成的影响，以及dynamic_weight_manager.py中的权重更新逻辑重构。同时，注意测试覆盖不足的风险，建议补充单元测试。

查看完整分析 GitHub 原始 PR RLAPIServer

#7078 [Iluvatar] Support wi4a16 group_gemm

作者 wuyujiji · 合并时间 2026-03-30 19:03

功能重要性 6.00 洞察度 5.00

新增 Iluvatar GPU 对 wi4a16 group gemm 的支持，优化量化配置并修复 CI。

建议技术管理者和工程师关注以下方面： - 精读 `wi4a16_group_gemm.cu` 和 `wi4a16_weight_quantize.cu`，理解量化设计和 CUDA 实现细节，以评估性能和正确性。 - 注意 `iluvatar_model_runner.py` 中的兼容性限制，避免在不支持 CUDA 图的场景下使用 wi4a16。 - 参考新增测试脚本，确保类似模型能正确集成，并考虑扩展测试覆盖以降低风险。

查看完整分析 GitHub 原始 PR IluvatarQuantization

#6929 [BugFix][KVCache] Fix mm hash boundary comparison in get_block_hash_extra_keys

作者 kevincheng2 · 合并时间 2026-03-30 17:13

缺陷修复重要性 6.00 洞察度 5.00

修复 KVCache 中多模态 hash 边界比较的 off-by-one 错误，确保 prefix cache 计算正确性。

该 PR 值得工程师精读，特别是处理边界条件的逻辑和测试设计，有助于学习在类似场景中避免 off-by-one 错误。

查看完整分析 GitHub 原始 PR KVCachebugfix

#7062 [append attention] clean code

作者 zhoutianzi666 · 合并时间 2026-03-30 15:07

重构重要性 4.00 洞察度 4.00

清理 GPU 多查询 attention 内核代码，移除冗余变量和条件检查。

建议工程师在修改 GPU 内核时参考此 PR，了解如何简化边界逻辑和添加编译时检查；对于一般读者，可快速浏览以理解代码清理模式，但非核心学习材料。

查看完整分析 GitHub 原始 PR GPUAttentionRefactor

#7030 [Optimization]Merge Text processor

作者 luukunn · 合并时间 2026-03-30 15:02

重构重要性 6.00 洞察度 7.00

通过新建抽象基类统一文本处理器逻辑，消除重复代码以降低维护成本。

建议技术管理者和工程师精读此 PR，重点关注 BaseTextProcessor 的设计决策，如抽象接口的定义和公共逻辑的提取方式，这展示了代码重构的最佳实践。同时，需审查 review 中指出的未解决问题（如 ids2tokens 返回值错误），并在后续迭代中优先修复，以避免潜在的生产环境 bug。

查看完整分析 GitHub 原始 PR OptimizationRefactortest

#7075 Revert "[BugFix] Add lock to avoid generating nan when using storage cache"

作者 Jiang-Jia-Jun · 合并时间 2026-03-30 14:52

其他重要性 5.00 洞察度 3.00

回滚为预防NaN生成而添加的锁，移除锁可能恢复并发风险。

建议关注此回滚是否合理，需检查#7046的原始问题是否已通过其他方式解决，或锁是否真的不必要。对于工程师，应review相关缓存逻辑以确保并发安全。

查看完整分析 GitHub 原始 PR KVCachebugfix

#7046 [BugFix] Add lock to avoid generating nan when using storage cache

作者 juncaipeng · 合并时间 2026-03-30 14:50

缺陷修复重要性 6.00 洞察度 5.00

为 KVCache storage cache 读写任务加锁，防止并发导致 NaN 生成。

该 PR 值得精读，特别是锁机制的设计和异常处理。建议关注锁的粒度选择、assert 的替代方案（如显式异常），以及同步模式限制对现有代码的影响。

查看完整分析 GitHub 原始 PR bugfixKVCache

#7069 Fix moe topk select bug in cudagraph

作者 zhangbo9674 · 合并时间 2026-03-30 14:24

缺陷修复重要性 5.00 洞察度 4.00

修复 CUDA Graph 中 MoE top-k 选择 bug，优化组掩码构建和权重采样逻辑。

建议工程师在涉及 CUDA Graph 或 MoE 层开发时，精读此 PR 以了解 API 选择和性能权衡；重点关注 `index_sample` 的适用性评估，并考虑 Copilot 的性能优化建议，以避免潜在问题。

查看完整分析 GitHub 原始 PR bugfixGPUMoE

第 20 / 23 页 · 共 178 条

上一页 1 … 19 20 21 22 23 下一页

支持 Prhub ♥