Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

glm 相关 PR

2026-05-26
功能 重要性 9.18 洞察度 6.00

GLM-4.7-Flash 独立 MLA 实现及 NextN 推测解码

建议仔细审查 `glm4_moe_lite_nextn.py` 的 `__init__` 是否按 review 建议修复;若未修复,应及时补充。此 PR 的独立模型设计思路值得参考,尤其 MLA NextN 的 zero_allocator 传递模式。建议合并后补充针对模型加载和 pipeline 的测试。