Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-04-28

#23808 [Feature] Xiaomi MiMo-V2.5-Pro day0 support

原始 PR · 作者 JoyFuture · 合并时间 2026-04-28 11:43

功能 重要性 7.90 洞察度 5.00

添加 Xiaomi MiMo-V2.5-Pro 模型 day0 支持

值得精读:PR 展示了如何在不破坏向后兼容的前提下对已有模型架构进行重命名和扩展,特别是保留旧类名作为别名、处理 fused QKV 检查点加载等设计模式值得参考。

缺陷修复 重要性 6.41 洞察度 5.00

MooncakeStore warmup 增加重试机制

建议维护者和部署者关注此 PR,它解决了实际生产中发现的稳定性问题。设计上对竞态条件的处理方式值得借鉴——通过有限重试+明确异常退出,在保证鲁棒性的同时避免了无限阻塞。同时,提前收集可观测信息(如 TP rank)是良好的运维实践。

其他 重要性 4.38 洞察度 2.00

DeepSeek-V4 cookbook 启用 DeepGemm warmup

建议快速合并,此 PR 是文档/配置跟进,无技术风险。可精读第二个修复提交,了解如何修复遗漏引用错误。

缺陷修复 重要性 6.11 洞察度 4.00

修复 NSA CP 和 Prefix Cache 同时开启时的精度问题

这是针对特定硬件后端(NPU)和配置组合的定向修复,逻辑清晰。建议在 NPU CI 中增加同时启用 nsa_cp 和 prefixcache 的精度测试,防止未来回归。对于 GPU 用户无需关注。

#22961 [NPU] Fix issue and support GLM-4.5V

原始 PR · 作者 zhsurpass · 合并时间 2026-04-28 09:08

缺陷修复 重要性 6.19 洞察度 3.00

NPU 支持 GLM-4.5V 并修复 QK Norm 参数传递

建议阅读 glm4_moe.py 中 forward_prepare 的条件分支设计,了解 NPU 后端如何处理 QK Norm 可选的情况。对于其他需要类似支持的模型可复用此模式。

性能优化 重要性 6.02 洞察度 4.00

HiCache 预取自适应剩余可用内存优化

本 PR 是一次针对性的性能优化,逻辑清晰,值得阅读以理解 HiCache 预取流程和内存自适应策略。对于使用 HiCache 的部署场景,该改动能带来实际收益。建议在合并后运行相关测试(如 test_hicache_storage_mooncake_backend)验证无回归。

#23886 [PD+Pause] Remove redundant post processing

原始 PR · 作者 ByronHsu · 合并时间 2026-04-28 08:01

重构 重要性 4.00 洞察度 3.00

移除 PD Pause 中冗余的 inflight 处理调用

该 PR 改动简单、风险低,可直接合并。对于从事 disaggregation prefill 或调度器开发的团队成员有一定参考意义,可了解 `process_disagg_prefill_inflight_queue` 的当前语义和调用场景。

参与讨论