Prhub
← 返回仓库列表

PaddlePaddle/FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

监控状态:已开启 最近同步:2026-04-18 19:21 同步状态:空闲 下次计划:2026-04-18 20:21

PR 列表

已合并 178 · 已分析 178
更多筛选
2026-04-13

#7241 [Optimization] 移除 num_blocks 上限限制

作者 yuanlehome · 合并时间 2026-04-13 22:07

性能优化 重要性 6.00 洞察度 5.00

移除KV Cache块数上限限制,提升高显存设备的显存利用率。

建议精读以理解KV Cache分配机制和移除限制的权衡。关注`iluvatar_worker.py`的未同步修改,以及测试baseline的普适性问题,可作为学习风险管理的案例。

缺陷修复 重要性 6.00 洞察度 6.00

修复投机解码中 step_idx 语义变更导致的 stop sequences 和 thinking 长度限制 kernel 索引错误。

建议技术管理者和工程师精读此 PR,重点关注: 1. step_idx 语义变更的设计决策及其对索引计算的影响,可作为理解投机解码演进的重要案例。 2. 索引修复逻辑中的边界处理(如 pre_ids_end 检测、循环条件调整),学习如何适配语义变更。 3. 注意 review 中未解决的 XPU 兼容性和线程安全风险,建议在后续开发中跟踪处理。

重构 重要性 6.00 洞察度 5.00

为FusedMoE添加显式hidden_size参数,解耦对配置的依赖,提高灵活性。

建议**中等精读**。值得关注的设计决策在于从隐式依赖配置改为显式参数传递的解耦模式,这是提高代码模块化的常见手法。特别需注意review中未解决的`hidden_size`默认值风险,在后续开发或评审类似改动时应考虑添加参数验证或更安全的默认策略。

基础设施 重要性 4.00 洞察度 3.00

优化4卡CI容器启动配置,支持RDMA环境并重组测试用例。

该PR变更直接,适合快速浏览以了解CI配置优化细节,重点关注RDMA环境支持的具体配置(如设备挂载、ulimit设置)和测试重组逻辑。对于负责CI或RDMA测试的工程师值得参考。

性能优化 重要性 7.00 洞察度 7.00

支持PD分离模式下MTP超重叠优化,通过异步写入减少GPU同步,提升解码性能10%~15%。

建议精读以了解异步优化在高速推理系统中的实现细节,重点关注async_set_value函数的设计、平台适配策略以及review中讨论的技术权衡。同时,注意未完全解决的兼容性风险和测试覆盖缺口。

#7143 [Others]remove fa4 requirement

作者 zoooo0820 · 合并时间 2026-04-13 19:24

基础设施 重要性 2.00 洞察度 1.00

移除flash_mask依赖以避免Docker环境冲突,回退至FA3/FA2。

这是一个简单的依赖管理调整,无需深入精读。建议关注:1. 后续是否有补充说明具体哪些Docker环境存在冲突。2. 测试是否验证了回退机制。对于维护者,可参考此PR作为依赖冲突解决的案例。

optimization 重要性 5.00 洞察度 4.00

优化RoPE CUDA kernel网格启动逻辑,并更新DeepSeek V3模型配置以对齐推理上下文长度。

建议关注CUDA kernel的网格启动简化设计,这是典型的性能优化模式;同时注意配置语义变更的设计决策,理解max_model_len与max_position_embeddings在不同场景下的使用逻辑。PR代码量小,适合快速浏览以了解优化思路。

其他 重要性 2.00 洞察度 2.00

将基准测试的随机种子参数默认值从0改为None,使测试默认不固定随机性。

该PR变更简单直接,适合快速浏览以了解基准测试工具的随机性处理调整。值得关注的设计决策是:通过将默认值改为None而非其他特殊值(如-1)来优雅地表示“不使用种子”,这是一种清晰的API设计。但需注意fastdeploy-bot提到的潜在不一致问题,可能需要在后续PR中统一处理。

参与讨论