#21851 GLM-4.7 and GLM-4.7-Flash Loading and import format
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-04-04 11:44
更新 GLM-4.7 和 GLM-4.7-Flash 模型的加载逻辑与导入格式,移除 Eagle 实现并同步量化处理。
此 PR 值得精读,特别是关注共享专家量化处理的设计决策和跨平台兼容性调整。建议工程师重点关注 glm4_moe.py 中的 FP8 类型检查和 forward_normal_dual_stream 缩放逻辑,以学习如何避免常见平台差异和双重计算错误。
参与讨论