Prhub
← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

聚合结果

Quantization 相关 PR

2026-04-16

#7425 [BugFix] Fix deep gemm import

作者 RichardWooSJTU · 合并时间 2026-04-16 17:56

缺陷修复 重要性 3.71 洞察度 3.00

修复DeepSeekV3模型中deep_gemm导入路径,统一使用FastDeploy内置实现。

Models Quantization bugfix

该PR变更简单直接,适合快速浏览以了解导入规范。值得关注的设计决策是统一使用项目内置工具类(fp8_utils)管理外部依赖,这种模式可推广到其他模型。

2026-04-13

#7308 [TI-consistent] support quant use pow2scale

作者 liuruyan · 合并时间 2026-04-13 15:01

功能 重要性 6.00 洞察度 5.00

新增环境变量支持FP8量化使用pow2scale模式,以对齐训练推理一致性。

Quantization MoE RL Feature

建议关注量化模式控制的设计决策,特别是环境变量与现有quant_config的整合方式,以及review中提到的逻辑不一致问题,以理解如何维护代码一致性和正确性。此PR值得精读,可学习训练推理对齐的实现模式。

2026-04-10
功能 重要性 6.00 洞察度 6.00

支持通过CLI配置量化参数并添加CUDA图捕获顺序验证,提升配置灵活性和系统可靠性。

Quantization Graph Optimization Feature

建议技术管理者和工程师精读quantization/__init__.py中的parse_quant_config函数和cudagraph_piecewise_backend.py中的_validate_decode_capture_order方法,关注配置优先级设计、捕获验证机制以及跨平台处理策略。这些设计决策对后续配置扩展和优化有参考价值。

2026-04-09

#7259 [Feature] support nvfp4 tbo

作者 lizexu123 · 合并时间 2026-04-09 17:29

功能 重要性 5.00 洞察度 4.00

为 NVFP4 MoE 添加 TBO 支持,优化推理并发性能。

Feature Quantization MoE Optimization

建议重点关注 TBO 在 NVFP4 MoE 中的具体优化机制,以及 let_another_thread_run 函数的实现细节(需结合 tbo 模块理解)。同时应注意清理调试代码,并考虑补充单元测试以确保变更可靠性。

2026-04-07

#7053 [Feature] support blackwell gemm in ht

作者 lizhenyun01 · 合并时间 2026-04-07 19:52

功能 重要性 6.00 洞察度 6.00

新增Blackwell架构MoE GEMM后端支持,通过环境变量启用以提升高吞吐推理性能。

Feature Optimization MoE GPU Quantization

该PR值得精读,尤其是fused_moe_blackwell_backend.py中的后端实现,可学习高性能MoE计算设计;关注环境变量使用和量化集成方式,以及review中提到的scale处理潜在问题,以便在类似功能开发中规避风险。

2026-04-03

#7120 [BugFix] fix flashinfer-cutedsl moe nvfp4

作者 lizexu123 · 合并时间 2026-04-03 15:43

缺陷修复 重要性 6.00 洞察度 6.00

修复 NVFP4 环境变量类型并优化 flashinfer 条件导入,适配非 Blackwell GPU 环境。

bugfix Quantization GPU Optimization docs

对于从事量化优化或 GPU 相关开发的工程师,此 PR 值得精读,特别是 is_nvfp4_supported() 的设计和条件导入的实现,展示了如何处理硬件特定依赖的优雅方式。关注 deep_ep 导入的修复和文档更新部分,以了解跨平台兼容性的最佳实践。

2026-04-01

#7073 [OP] support deepgeem for sm103

作者 BingooYang · 合并时间 2026-04-01 21:01

功能 重要性 4.00 洞察度 3.00

扩展DeepGemm对SM103架构的支持,适配新GPU硬件。

OP GPU Quantization

建议快速浏览以了解硬件适配模式,无需精读。值得关注的设计决策:使用`>=100`而非特定版本号来支持未来架构,体现了前瞻性设计;但review中关于分支合并的讨论值得思考,可借鉴以简化条件逻辑。对于负责量化或GPU优化的工程师,此PR展示了如何扩展版本特定功能。

2026-03-30

#7078 [Iluvatar] Support wi4a16 group_gemm

作者 wuyujiji · 合并时间 2026-03-30 19:03

功能 重要性 6.00 洞察度 5.00

新增 Iluvatar GPU 对 wi4a16 group gemm 的支持,优化量化配置并修复 CI。

Iluvatar Quantization

建议技术管理者和工程师关注以下方面: - 精读 `wi4a16_group_gemm.cu` 和 `wi4a16_weight_quantize.cu`,理解量化设计和 CUDA 实现细节,以评估性能和正确性。 - 注意 `iluvatar_model_runner.py` 中的兼容性限制,避免在不支持 CUDA 图的场景下使用 wi4a16。 - 参考新增测试脚本,确保类似模型能正确集成,并考虑扩展测试覆盖以降低风险。