Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-18

#24931 feat(mimo-v2): add EPD disaggregation support

原始 PR · 作者 Abatom · 合并时间 2026-05-18 10:33

功能 重要性 9.18 洞察度 7.00

MiMo-V2 添加 EPD 编码器分离支持

PR 设计合理,关键讨论已解决,CI 通过。建议合并,并后续补充自动化测试以覆盖 EPD 端到端流程。值得关注的设计点包括编码服务器钩子模式和按模型类型属性拆分,可作为其他模型接入 EPD 的范例。

#25548 Quiet test_bs_1_speed CI log

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-18 10:29

重构 重要性 5.04 洞察度 3.00

清理 speculative decoding CI 测试日志

该 PR 值得合并,属于低风险的质量改进。建议后续修复 `print_output` 对 stream 模式的支持,以完全实现静默功能。

#22822 [Refactor] Refactor DeepEP dispatcher

原始 PR · 作者 OrangeRedeng · 合并时间 2026-05-18 09:36

重构 重要性 8.50 洞察度 6.00

重构 DeepEP 调度器,引入结构化输出 dtype 控制

该 PR 值得精读,尤其是自动 dtype 检测函数的设计和量化配置传递方式。对于调度器重构部分,可以学习如何将分散的环境变量集中为结构化的枚举和服务器参数。建议关注全局环境变量问题的后续修复。

#25180 Fix AMX GQA extend attention

原始 PR · 作者 miamia0 · 合并时间 2026-05-18 09:30

缺陷修复 重要性 5.21 洞察度 5.00

修复 AMX CPU GQA extend attention 概率布局错误

值得精读:展示了硬件特定 bug 的定位和修复方法,以及如何通过精确控制数据布局解决问题,对理解 AMX CPU 加速细节有帮助。

缺陷修复 重要性 8.00 洞察度 4.00

修复 NPU MLA KV pool 属性缺失及复制方法

建议通读,特别是 `get_cpu_copy` / `load_cpu_copy` 的覆写模式。对于需要在不同硬件上定制基类行为的场景有参考价值。Review 中关于变量命名统一的讨论值得关注,反映了 pipeline parallelism 下索引设计的关键细节。

#25516 refactor: remove ModelWorkerBatch indirection

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-18 09:05

重构 重要性 8.74 洞察度 7.00

移除 ModelWorkerBatch 中间层,简化批量数据流

值得精读,尤其关注 `_overlap_forward_isolation` 的上下文管理器设计、一次性覆盖模式以及跨流张量保活策略。可作为架构重构的参考案例。

性能优化 重要性 5.82 洞察度 5.00

Gemma4 默认注意力后端切换到 trtllm_mha

该 PR 变更简洁高效,性能收益显著且经过充分讨论和验证。值得关注其性能基准测试方法和 trtllm_mha 后端在 Gemma4 上的兼容性处理。对于使用 Blackwell GPU 的 Gemma4 用户,建议及时合并此变更。

参与讨论