Prhub
← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

聚合结果

FlashInfer 相关 PR

2026-04-16

#6660 [Optimization] enable trtllm_all_reduce fusion kernel in glm model

作者 BingooYang · 合并时间 2026-04-16 14:10

optimization 重要性 7.97 洞察度 6.00

为 GLM 模型接入 FlashInfer 的 trtllm_allreduce_fusion 融合算子,优化分布式推理性能。

Optimization OP Models FlashInfer

建议精读此 PR,重点关注融合算子的设计实现(如 `flashinfer_comm_fusion.py` 中的 workspace 管理)、prefix 检查机制如何与模型组网集成,以及 review 中讨论的 fallback 处理权衡。

2026-03-30

#6963 [Feature] Support NVFP4 Flashinfer-cutedsl MoE on SM100

作者 mpgemm · 合并时间 2026-03-30 11:37

功能 重要性 7.00 洞察度 7.00

支持SM100 GPU上的NVFP4 FlashInfer CuteDSL MoE后端,提升量化混合专家模型推理性能。

Quantization GPU MoE FlashInfer

建议精读此PR,重点关注`nvfp4.py`中的权重处理逻辑和`flashinfer_cutedsl_moe.py`的核心设计,以理解量化MoE后端集成的技术权衡。对于维护者,需注意外部依赖的兼容性风险和硬件限制。