#7425 [BugFix] Fix deep gemm import
作者 RichardWooSJTU · 合并时间 2026-04-16 17:56
修复DeepSeekV3模型中deep_gemm导入路径,统一使用FastDeploy内置实现。
该PR变更简单直接,适合快速浏览以了解导入规范。值得关注的设计决策是统一使用项目内置工具类(fp8_utils)管理外部依赖,这种模式可推广到其他模型。
标签列表
聚合结果
作者 RichardWooSJTU · 合并时间 2026-04-16 17:56
修复DeepSeekV3模型中deep_gemm导入路径,统一使用FastDeploy内置实现。
该PR变更简单直接,适合快速浏览以了解导入规范。值得关注的设计决策是统一使用项目内置工具类(fp8_utils)管理外部依赖,这种模式可推广到其他模型。
作者 liuruyan · 合并时间 2026-04-13 15:01
新增环境变量支持FP8量化使用pow2scale模式,以对齐训练推理一致性。
建议关注量化模式控制的设计决策,特别是环境变量与现有quant_config的整合方式,以及review中提到的逻辑不一致问题,以理解如何维护代码一致性和正确性。此PR值得精读,可学习训练推理对齐的实现模式。
作者 Deleter-D · 合并时间 2026-04-10 14:13
支持通过CLI配置量化参数并添加CUDA图捕获顺序验证,提升配置灵活性和系统可靠性。
建议技术管理者和工程师精读quantization/__init__.py中的parse_quant_config函数和cudagraph_piecewise_backend.py中的_validate_decode_capture_order方法,关注配置优先级设计、捕获验证机制以及跨平台处理策略。这些设计决策对后续配置扩展和优化有参考价值。
作者 lizexu123 · 合并时间 2026-04-09 17:29
为 NVFP4 MoE 添加 TBO 支持,优化推理并发性能。
建议重点关注 TBO 在 NVFP4 MoE 中的具体优化机制,以及 let_another_thread_run 函数的实现细节(需结合 tbo 模块理解)。同时应注意清理调试代码,并考虑补充单元测试以确保变更可靠性。
作者 lizhenyun01 · 合并时间 2026-04-07 19:52
新增Blackwell架构MoE GEMM后端支持,通过环境变量启用以提升高吞吐推理性能。
该PR值得精读,尤其是fused_moe_blackwell_backend.py中的后端实现,可学习高性能MoE计算设计;关注环境变量使用和量化集成方式,以及review中提到的scale处理潜在问题,以便在类似功能开发中规避风险。
作者 lizexu123 · 合并时间 2026-04-03 15:43
修复 NVFP4 环境变量类型并优化 flashinfer 条件导入,适配非 Blackwell GPU 环境。
对于从事量化优化或 GPU 相关开发的工程师,此 PR 值得精读,特别是 is_nvfp4_supported() 的设计和条件导入的实现,展示了如何处理硬件特定依赖的优雅方式。关注 deep_ep 导入的修复和文档更新部分,以了解跨平台兼容性的最佳实践。
作者 BingooYang · 合并时间 2026-04-01 21:01
扩展DeepGemm对SM103架构的支持,适配新GPU硬件。
建议快速浏览以了解硬件适配模式,无需精读。值得关注的设计决策:使用`>=100`而非特定版本号来支持未来架构,体现了前瞻性设计;但review中关于分支合并的讨论值得思考,可借鉴以简化条件逻辑。对于负责量化或GPU优化的工程师,此PR展示了如何扩展版本特定功能。
作者 wuyujiji · 合并时间 2026-03-30 19:03
新增 Iluvatar GPU 对 wi4a16 group gemm 的支持,优化量化配置并修复 CI。
建议技术管理者和工程师关注以下方面: - 精读 `wi4a16_group_gemm.cu` 和 `wi4a16_weight_quantize.cu`,理解量化设计和 CUDA 实现细节,以评估性能和正确性。 - 注意 `iluvatar_model_runner.py` 中的兼容性限制,避免在不支持 CUDA 图的场景下使用 wi4a16。 - 参考新增测试脚本,确保类似模型能正确集成,并考虑扩展测试覆盖以降低风险。