#25524 [Bug Fix] Align glm4_moe_nextn NPU MTP loading with qwen3 MTP
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-05-19 21:47
对齐 NPU 上 GLM-4.7 MTP 加载路径
该 PR 适合精读,特别是关注 SLANG 中 MTP 推测解码的实现细节和 NPU 平台的量化策略。其中的清理工作(移除冗余上下文管理器、简化控制流)体现了代码质量演进方向。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-05-19 21:47
对齐 NPU 上 GLM-4.7 MTP 加载路径
该 PR 适合精读,特别是关注 SLANG 中 MTP 推测解码的实现细节和 NPU 平台的量化策略。其中的清理工作(移除冗余上下文管理器、简化控制流)体现了代码质量演进方向。
移除 NPU 文档中的 100ms 基准配置
此 PR 仅为文档清理,可快速合并。但建议跟进 reviewer 的意见,确保表格中的引用一致性。
CI工作流支持labeled事件重新触发
该 PR 设计完善,文档清晰,推荐 CI 管理者精读。值得关注的设计决策是通过 `labeled` 事件绕开 `run.rerun()` 不可用的问题,这是一个很好的 GitHub Actions 实践。建议后续为 handler 增加单元测试。
移除陈旧的 DeepSeek V4 JIT 内核
值得快速合并。虽然简单删除,但展示了清理无用代码的最佳实践:用 rg 验证无引用后删除,并保留 git 历史供回溯。
NPU扩散模型新增三种注意力后端
值得精读,尤其是如何在现有注意力抽象框架中新增后端,以及平台选择逻辑的 try-except 降级处理。对于 NPU 相关开发者,Rain Fusion 和 Block Sparse 的实现细节需关注 review 中的性能优化建议。
修复NPU上 Tensor.view 非连续张量崩溃
这是一个最小化、安全的 bugfix,值得直接合入。无需精读,但可作为 NPU 兼容性修复的示例参考。
原始 PR · 作者 Hide-on-bushsh · 合并时间 2026-05-19 17:07
适配 transformers v5 的 HFRunner 变更
该 PR 属于紧急兼容性修复,但 review 中提出的两个问题尚未解决。建议作者确认 transformers v5 中 Qwen2VLForConditionalGeneration 的 vision tower 输出格式,若确实需要 pooler_output 则需调整赋值逻辑;同时避免使用 `**kwargs` 或明确过滤参数。在修复前不宜合并到 main。
修复 DeepSeek V4 CP 中张量不连续崩溃
值得精读,尤其是理解 JIT 内核与张量连续性的依赖关系。建议同步检查 `_compute_kv_to_cache` 的类似问题。
参与讨论