← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

Optimization · 67

bugfix · 55

Feature · 37

OP · 37

CI · 33

test · 31

infra · 30

GPU · 28

Models · 25

Others · 21

APIServer · 18

MoE · 18

Scheduler · 18

Speculative Decoding · 18

KVCache · 17

Refactor · 16

RL · 14

XPU · 14

Engine · 12

Quantization · 11

docs · 10

DataProcessor · 8

Logging · 8

Attention · 6

Benchmark · 3

Graph Optimization · 3

Iluvatar · 3

Loader · 3

FlashInfer · 2

FDConfig · 1

Metax · 1

PD Disaggregation · 1

Security · 1

聚合结果

Quantization 相关 PR

2026-04-16

#7425 [BugFix] Fix deep gemm import

作者 RichardWooSJTU · 合并时间 2026-04-16 17:56

缺陷修复重要性 3.71 洞察度 3.00

修复DeepSeekV3模型中deep_gemm导入路径，统一使用FastDeploy内置实现。

Models Quantization bugfix

该PR变更简单直接，适合快速浏览以了解导入规范。值得关注的设计决策是统一使用项目内置工具类（fp8_utils）管理外部依赖，这种模式可推广到其他模型。

查看完整分析 GitHub 原始 PR

2026-04-13

#7308 [TI-consistent] support quant use pow2scale

作者 liuruyan · 合并时间 2026-04-13 15:01

功能重要性 6.00 洞察度 5.00

新增环境变量支持FP8量化使用pow2scale模式，以对齐训练推理一致性。

Quantization MoE RL Feature

建议关注量化模式控制的设计决策，特别是环境变量与现有quant_config的整合方式，以及review中提到的逻辑不一致问题，以理解如何维护代码一致性和正确性。此PR值得精读，可学习训练推理对齐的实现模式。

查看完整分析 GitHub 原始 PR

2026-04-10

#7281 [FDConfig] Support CLI args for quantization params and add cudagraph validation

作者 Deleter-D · 合并时间 2026-04-10 14:13

功能重要性 6.00 洞察度 6.00

支持通过CLI配置量化参数并添加CUDA图捕获顺序验证，提升配置灵活性和系统可靠性。

Quantization Graph Optimization Feature

建议技术管理者和工程师精读quantization/__init__.py中的parse_quant_config函数和cudagraph_piecewise_backend.py中的_validate_decode_capture_order方法，关注配置优先级设计、捕获验证机制以及跨平台处理策略。这些设计决策对后续配置扩展和优化有参考价值。

查看完整分析 GitHub 原始 PR

2026-04-09

#7259 [Feature] support nvfp4 tbo

作者 lizexu123 · 合并时间 2026-04-09 17:29

功能重要性 5.00 洞察度 4.00

为 NVFP4 MoE 添加 TBO 支持，优化推理并发性能。

Feature Quantization MoE Optimization

建议重点关注 TBO 在 NVFP4 MoE 中的具体优化机制，以及 let_another_thread_run 函数的实现细节（需结合 tbo 模块理解）。同时应注意清理调试代码，并考虑补充单元测试以确保变更可靠性。

查看完整分析 GitHub 原始 PR

2026-04-07

#7053 [Feature] support blackwell gemm in ht

作者 lizhenyun01 · 合并时间 2026-04-07 19:52

功能重要性 6.00 洞察度 6.00

新增Blackwell架构MoE GEMM后端支持，通过环境变量启用以提升高吞吐推理性能。

Feature Optimization MoE GPU Quantization

该PR值得精读，尤其是fused_moe_blackwell_backend.py中的后端实现，可学习高性能MoE计算设计；关注环境变量使用和量化集成方式，以及review中提到的scale处理潜在问题，以便在类似功能开发中规避风险。

查看完整分析 GitHub 原始 PR

2026-04-03

#7120 [BugFix] fix flashinfer-cutedsl moe nvfp4

作者 lizexu123 · 合并时间 2026-04-03 15:43

缺陷修复重要性 6.00 洞察度 6.00

修复 NVFP4 环境变量类型并优化 flashinfer 条件导入，适配非 Blackwell GPU 环境。

bugfix Quantization GPU Optimization docs

对于从事量化优化或 GPU 相关开发的工程师，此 PR 值得精读，特别是 is_nvfp4_supported() 的设计和条件导入的实现，展示了如何处理硬件特定依赖的优雅方式。关注 deep_ep 导入的修复和文档更新部分，以了解跨平台兼容性的最佳实践。

查看完整分析 GitHub 原始 PR

2026-04-01

#7073 [OP] support deepgeem for sm103

作者 BingooYang · 合并时间 2026-04-01 21:01

功能重要性 4.00 洞察度 3.00

扩展DeepGemm对SM103架构的支持，适配新GPU硬件。

OP GPU Quantization

建议快速浏览以了解硬件适配模式，无需精读。值得关注的设计决策：使用`>=100`而非特定版本号来支持未来架构，体现了前瞻性设计；但review中关于分支合并的讨论值得思考，可借鉴以简化条件逻辑。对于负责量化或GPU优化的工程师，此PR展示了如何扩展版本特定功能。

查看完整分析 GitHub 原始 PR

2026-03-30

#7078 [Iluvatar] Support wi4a16 group_gemm

作者 wuyujiji · 合并时间 2026-03-30 19:03

功能重要性 6.00 洞察度 5.00

新增 Iluvatar GPU 对 wi4a16 group gemm 的支持，优化量化配置并修复 CI。

Iluvatar Quantization

建议技术管理者和工程师关注以下方面： - 精读 `wi4a16_group_gemm.cu` 和 `wi4a16_weight_quantize.cu`，理解量化设计和 CUDA 实现细节，以评估性能和正确性。 - 注意 `iluvatar_model_runner.py` 中的兼容性限制，避免在不支持 CUDA 图的场景下使用 wi4a16。 - 参考新增测试脚本，确保类似模型能正确集成，并考虑扩展测试覆盖以降低风险。

查看完整分析 GitHub 原始 PR

第 1 / 2 页 · 共 11 条

1 2 下一页