Prhub
← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

聚合结果

Iluvatar 相关 PR

2026-04-17

#7453 [Iluvatar] fix ci error and update readme

作者 wuyujiji · 合并时间 2026-04-17 20:42

缺陷修复 重要性 4.01 洞察度 3.00

修复 Iluvatar 后端 MoE 层接口签名不一致问题并更新安装文档。

Iluvatar bugfix docs OP

该 PR 值得快速浏览,重点关注 MoE 层接口对齐的设计决策,了解如何通过添加可选参数来保持向后兼容性;同时可参考文档更新模式,学习如何同步维护中英文技术文档。

2026-04-01

#7126 [Iluvatar] Fix cuda graph error for tp > 1 in ernie models

作者 wuyujiji · 合并时间 2026-04-01 19:13

缺陷修复 重要性 6.00 洞察度 5.00

修复Iluvatar平台上ERNIE模型在tensor parallel大于1时的cuda graph错误。

Iluvatar bugfix Models

该PR值得精读以理解Iluvatar平台上的cuda graph处理策略和分布式通信优化。重点关注`tensor_model_parallel_all_reduce`函数中的平台分支逻辑设计,以及模型运行器中的条件禁用机制,这些是适配异构平台的关键技术点。

2026-03-30

#7078 [Iluvatar] Support wi4a16 group_gemm

作者 wuyujiji · 合并时间 2026-03-30 19:03

功能 重要性 6.00 洞察度 5.00

新增 Iluvatar GPU 对 wi4a16 group gemm 的支持,优化量化配置并修复 CI。

Iluvatar Quantization

建议技术管理者和工程师关注以下方面: - 精读 `wi4a16_group_gemm.cu` 和 `wi4a16_weight_quantize.cu`,理解量化设计和 CUDA 实现细节,以评估性能和正确性。 - 注意 `iluvatar_model_runner.py` 中的兼容性限制,避免在不支持 CUDA 图的场景下使用 wi4a16。 - 参考新增测试脚本,确保类似模型能正确集成,并考虑扩展测试覆盖以降低风险。