#26088 GLM-4.7-Flash: standalone MLA impl and MLA NextN/MTP
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-05-26 13:17
功能
重要性 9.18
洞察度 6.00
GLM-4.7-Flash 独立 MLA 实现及 NextN 推测解码
建议仔细审查 `glm4_moe_lite_nextn.py` 的 `__init__` 是否按 review 建议修复;若未修复,应及时补充。此 PR 的独立模型设计思路值得参考,尤其 MLA NextN 的 zero_allocator 传递模式。建议合并后补充针对模型加载和 pipeline 的测试。