添加 Xiaomi MiMo-V2.5-Pro 模型 day0 支持
值得精读:PR 展示了如何在不破坏向后兼容的前提下对已有模型架构进行重命名和扩展,特别是保留旧类名作为别名、处理 fused QKV 检查点加载等设计模式值得参考。
SGLang is a high-performance serving framework for large language models and multimodal models.
添加 Xiaomi MiMo-V2.5-Pro 模型 day0 支持
值得精读:PR 展示了如何在不破坏向后兼容的前提下对已有模型架构进行重命名和扩展,特别是保留旧类名作为别名、处理 fused QKV 检查点加载等设计模式值得参考。
Flashinfer router gemm 支持 sm103
值得合并,改动小而明确。建议关注后续 flashinfer 版本更新,确保兼容性。
原始 PR · 作者 chenkaiyue · 合并时间 2026-04-28 09:50
MooncakeStore warmup 增加重试机制
建议维护者和部署者关注此 PR,它解决了实际生产中发现的稳定性问题。设计上对竞态条件的处理方式值得借鉴——通过有限重试+明确异常退出,在保证鲁棒性的同时避免了无限阻塞。同时,提前收集可观测信息(如 TP rank)是良好的运维实践。
DeepSeek-V4 cookbook 启用 DeepGemm warmup
建议快速合并,此 PR 是文档/配置跟进,无技术风险。可精读第二个修复提交,了解如何修复遗漏引用错误。
修复 NSA CP 和 Prefix Cache 同时开启时的精度问题
这是针对特定硬件后端(NPU)和配置组合的定向修复,逻辑清晰。建议在 NPU CI 中增加同时启用 nsa_cp 和 prefixcache 的精度测试,防止未来回归。对于 GPU 用户无需关注。
NPU 支持 GLM-4.5V 并修复 QK Norm 参数传递
建议阅读 glm4_moe.py 中 forward_prepare 的条件分支设计,了解 NPU 后端如何处理 QK Norm 可选的情况。对于其他需要类似支持的模型可复用此模式。
HiCache 预取自适应剩余可用内存优化
本 PR 是一次针对性的性能优化,逻辑清晰,值得阅读以理解 HiCache 预取流程和内存自适应策略。对于使用 HiCache 的部署场景,该改动能带来实际收益。建议在合并后运行相关测试(如 test_hicache_storage_mooncake_backend)验证无回归。
移除 PD Pause 中冗余的 inflight 处理调用
该 PR 改动简单、风险低,可直接合并。对于从事 disaggregation prefill 或调度器开发的团队成员有一定参考意义,可了解 `process_disagg_prefill_inflight_queue` 的当前语义和调用场景。
参与讨论