Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-04-25
文档 重要性 4.54 洞察度 3.00

添加 DFLASH 投机解码文档

该 PR 值得精读,尤其是需要使用 DFLASH 投机解码的团队。Review 中的参数讨论也对理解 DFLASH 的限制条件有参考价值。

缺陷修复 重要性 6.18 洞察度 4.00

ROCm 7.0 编译 bpreshuffle 时回退到 Triton GEMM

该 PR 值得快速合并,它解决了一个关键精度回归问题,且设计清晰、风险可控。建议未来考虑测试环境覆盖 ROCm 7.0 场景,防止类似编译器回归。

#23642 [AMD][MoRI] bump MoRI to v1.1.1

原始 PR · 作者 jhchouuu · 合并时间 2026-04-25 04:12

基础设施 重要性 2.77 洞察度 1.00

更新AMD MoRI版本至v1.1.1

建议合并。该PR是常规依赖升级,变更简单明确。可关注后续CI中AMD相关测试是否通过,确认新版本兼容性。

性能优化 重要性 6.44 洞察度 6.00

消除注意力层 DtoD 拷贝,每层节省约 14μs

值得精读。本 PR 展示了如何通过 PyTorch 的 out 参数和 op schema 别名标注消除不必要的张量拷贝,是性能优化的经典案例。团队内的推理引擎开发人员应关注其中的设计权衡(如用 forward_batch 属性而非 kwargs 传递输出),以应用到其他相似场景。

#23533 support Hy3 preview

原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-25 03:03

功能 重要性 9.18 洞察度 7.00

支持腾讯混元V3(Hy3-preview)模型推理与工具调用

该PR值得精读,特别是双流MoE重叠方案、自定义融合TopK kernel的实现、以及流式工具解析器的增量输出设计。建议后续关注group topk kernel的重构和AMD兼容性修复。

重构 重要性 6.05 洞察度 3.00

弃用 --collect-tokens-histogram,由 --enable-metrics 自动收集

该 PR 属于配置简化类变更,技术深度不高。但如果需要了解 SGLang 的可观测性配置或如何优雅地弃用 CLI 参数(DeprecatedAction),值得快速阅读。对于普通开发、运维人员,建议了解变更后将 --collect-tokens-histogram 从部署脚本中移除。

#23649 [diffusion] support LoRA for LTX2.3

原始 PR · 作者 mickqian · 合并时间 2026-04-25 01:52

功能 重要性 9.18 洞察度 6.00

为LTX2.3添加LoRA支持与多条件图像

值得精读,特别关注 `linear.py` 中的 LoRA 权重管理重构和多条件图像的 SP 支持设计;但需注意 review 指出的两个正确性风险,若未修复应尽快跟进。文档片段 `ltx-deployment.jsx` 作为交互式配置示例,可用于其他部署场景。

参与讨论