#7416 [KVCache] Mooncake storage register local buffer by chunk
作者 juncaipeng · 合并时间 2026-04-17 10:39
为 Mooncake KVCache 存储后端实现大缓冲区分块注册,支持超过 RDMA MR 大小限制的场景。
该 PR 值得精读,重点关注分块注册的设计决策、环境变量处理机制以及 review 中讨论的未解决疑虑(如资源泄漏、对齐问题)。建议结合后续 PR 观察是否补充错误处理和测试。
标签列表
聚合结果
作者 juncaipeng · 合并时间 2026-04-17 10:39
为 Mooncake KVCache 存储后端实现大缓冲区分块注册,支持超过 RDMA MR 大小限制的场景。
该 PR 值得精读,重点关注分块注册的设计决策、环境变量处理机制以及 review 中讨论的未解决疑虑(如资源泄漏、对齐问题)。建议结合后续 PR 观察是否补充错误处理和测试。
作者 ShaneGZhu · 合并时间 2026-04-16 19:54
将 DeepSeekV3.2 模型 slot_mapping 计算从每层两次优化为单次预处理,提升推理性能约 8-14%。
该 PR 值得精读,特别是设计决策将计算从模型层移至运行器层,展示了性能优化与代码抽象的权衡。关注 `_compute_position_ids_and_slot_mapping` 方法的实现细节,以及 review 中讨论的未解决点(如 GlmMoeDsa 兼容性),以便在其他优化中借鉴。
作者 RichardWooSJTU · 合并时间 2026-04-16 18:43
将数据并行进程启动从串行改为并行,优化启动性能。
此PR值得快速浏览,了解如何通过并行化优化启动流程。重点关注`launch_components`方法的修改,并思考是否需要在团队代码规范中补充超时机制。
作者 RuohengMa · 合并时间 2026-04-16 14:28
将 XPU 平台的 block_attn 算子拆分为可独立控制的 spliced 版本,提升优化灵活性。
建议技术管理者关注此 PR 的设计决策:如何通过环境变量实现渐进式优化,以及兼容性处理策略。工程师可精读 `block_attn_spliced.cc` 了解 spliced 算子拆分逻辑,并参考 `test_block_attn.py` 学习数值验证方法,同时注意 review 中提到的 bug 和依赖风险。
作者 BingooYang · 合并时间 2026-04-16 14:10
为 GLM 模型接入 FlashInfer 的 trtllm_allreduce_fusion 融合算子,优化分布式推理性能。
建议精读此 PR,重点关注融合算子的设计实现(如 `flashinfer_comm_fusion.py` 中的 workspace 管理)、prefix 检查机制如何与模型组网集成,以及 review 中讨论的 fallback 处理权衡。
作者 RichardWooSJTU · 合并时间 2026-04-15 19:13
自动设置num_max_dispatch_tokens_per_rank参数,基于投机解码状态优化配置。
建议精读以了解FastDeploy配置自动化的设计模式,特别是如何处理投机解码相关参数的动态计算。关注变量作用域和日志记录的最佳实践。
作者 chang-wenbin · 合并时间 2026-04-15 11:42
为DeepSeek V3模型的MLA注意力机制添加门控注意力支持,新增配置项和门控层。
该PR值得精读,重点关注门控注意力的实现设计和TP维度不匹配的修复方案。建议工程师在类似功能开发中注意并行模式下的维度对齐问题,并参考review中的优化建议(如配置预读取、异常处理)。
作者 ckl117 · 合并时间 2026-04-15 11:05
修正Flash Attention V3支持的硬件架构判断条件,从SM>=89改为仅SM90。
该PR值得快速浏览,重点关注条件修改的合理性:是否基于Paddle对SM架构的实际支持情况调整?建议结合硬件文档确认SM89是否应排除。对于维护者,可参考AI Review更新PR描述以保持准确性。