Prhub
← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

聚合结果

Feature 相关 PR

2026-04-17

#7442 [Speculative Decoding] Add MTP logprob support for PD disaggregation

作者 Deleter-D · 合并时间 2026-04-17 21:37

功能 重要性 6.50 洞察度 5.00

为PD分离部署下的MTP投机解码新增prefill节点首token的logprob支持。

Speculative Decoding PD Disaggregation OP Feature

该PR值得精读,重点关注以下设计决策: 1. **消息结构体抽取**:将 `msgdata` 和 `batch_msgdata` 抽取到共享头文件,减少了代码重复,但宏命名存在冲突风险,可学习其重构思路。 2. **输出保存逻辑重构**:`save_output_specualate` 函数新增参数以区分prefill和decode节点,体现了PD分离架构下的模块化设计,但需注意数据一致性和参数传递的边界条件。 3. **算子语义设计**:`mtp_save_first_token_with_topk` 算子的实现展示了如何扩展现有功能(添加logprob支持),但 `cur_token_num` 计算与上游语义的冲突揭示了接口设计的重要性。 建议结合review评论,在实际部署前验证非MTP投机方法的兼容性,并补充单元测试。

#7416 [KVCache] Mooncake storage register local buffer by chunk

作者 juncaipeng · 合并时间 2026-04-17 10:39

功能 重要性 5.01 洞察度 5.00

为 Mooncake KVCache 存储后端实现大缓冲区分块注册,支持超过 RDMA MR 大小限制的场景。

KVCache Feature Optimization infra

该 PR 值得精读,重点关注分块注册的设计决策、环境变量处理机制以及 review 中讨论的未解决疑虑(如资源泄漏、对齐问题)。建议结合后续 PR 观察是否补充错误处理和测试。

2026-04-16

#7428 [Feature] Support MOE Cutlass backend for latent MOE

作者 chang-wenbin · 合并时间 2026-04-16 22:11

功能 重要性 6.09 洞察度 5.00

为 latent MOE 模型添加 Cutlass backend 支持,允许在 MoE 计算前后应用投影层。

Feature MoE OP Models

该 PR 值得精读,重点关注 Cutlass backend 中投影层的实现逻辑和基类接口的设计决策。建议关注 review 中讨论的兼容性风险,并考虑在后续 PR 中修复签名不一致问题。

#7190 [Feature] implement log channel separation and request log level system

作者 xyxinyang · 合并时间 2026-04-16 15:13

功能 重要性 7.98 洞察度 7.00

实现日志通道划分和请求日志分级系统,优化日志管理和可配置性。

Feature Logging infra APIServer

该 PR 值得精读,特别是日志通道划分和分级系统的设计决策。关注 `RequestLogLevel` 枚举的使用、`log_request` 和 `log_request_error` 的实现方式(如级别过滤和错误处理),以及如何通过环境变量实现动态配置。同时,注意 review 中讨论的性能和兼容性权衡,为类似基础设施重构提供参考。

2026-04-15

#7412 [PD Disaggregation] Enable PD deployment without Router

作者 juncaipeng · 合并时间 2026-04-15 20:13

功能 重要性 7.20 洞察度 5.00

支持PD分离部署无需路由器,放宽配置限制并新增测试验证。

Feature Scheduler Engine test

该PR值得精读,特别是配置松耦合的设计决策(如`init_pd_info`逻辑调整)和测试模拟无路由器部署的方法。建议关注并发处理优化和兼容性权衡,以指导类似部署场景的实现。

#7382 [Feature] 添加 MoE 层 latent mode 支持

作者 zhoutianzi666 · 合并时间 2026-04-15 13:57

功能 重要性 5.83 洞察度 7.00

为MoE层添加latent mode支持,实现输入输出的潜在空间投影。

Feature MoE OP

建议工程师精读此PR以理解latent mode的实现机制,特别是参数传递链和backend集成方式。关注fastdeploy-bot指出的bug修复,学习如何避免接口不一致和运行时错误,这对设计可扩展的算子支持有借鉴价值。

#7404 [Models] support MLA gate attention

作者 chang-wenbin · 合并时间 2026-04-15 11:42

功能 重要性 5.69 洞察度 5.00

为DeepSeek V3模型的MLA注意力机制添加门控注意力支持,新增配置项和门控层。

Models Feature Optimization

该PR值得精读,重点关注门控注意力的实现设计和TP维度不匹配的修复方案。建议工程师在类似功能开发中注意并行模式下的维度对齐问题,并参考review中的优化建议(如配置预读取、异常处理)。

#6947 [XPU] add verify draft tokens

作者 cmcamdy · 合并时间 2026-04-15 10:18

功能 重要性 7.50 洞察度 5.00

为 XPU 平台新增投机解码草稿令牌验证算子,支持三种验证策略。

XPU OP Speculative Decoding Feature

建议精读此 PR,重点关注 XPU kernel 的实现细节(如验证策略逻辑和随机数处理),以及设计权衡(如线程安全修复)。对于从事投机解码或跨平台优化的工程师,此 PR 展示了硬件特定算子的集成模式,值得学习。