Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-25

#23592 [CI] Refactor ci_install_dependency.sh into standalone functions

原始 PR · 作者 merrymercy · 合并时间 2026-04-25 08:39

重构重要性 5.36 洞察度 4.00

CI安装脚本重构为独立函数

建议 CI 负责人/脚本维护者仔细阅读，尤其是函数化结构和 `mark_step_done` 模式，可在其他 CI 脚本中推广。普通开发者无需精读。

cirefactorrun-ci

#23553 [DOC] Add DFLASH speculative decoding documentation

原始 PR · 作者 alphabetc1 · 合并时间 2026-04-25 08:18

文档重要性 4.54 洞察度 3.00

添加 DFLASH 投机解码文档

该 PR 值得精读，尤其是需要使用 DFLASH 投机解码的团队。Review 中的参数讨论也对理解 DFLASH 的限制条件有参考价值。

documentationspeculative-decodingdflash

#23671 [AMD][bugfix] add gate rocm >= 7.2 for bpreshuffle

原始 PR · 作者 RolaoDenthu · 合并时间 2026-04-25 04:26

缺陷修复重要性 6.18 洞察度 4.00

ROCm 7.0 编译 bpreshuffle 时回退到 Triton GEMM

该 PR 值得快速合并，它解决了一个关键精度回归问题，且设计清晰、风险可控。建议未来考虑测试环境覆盖 ROCm 7.0 场景，防止类似编译器回归。

amdbugfixperformance

#23642 [AMD][MoRI] bump MoRI to v1.1.1

原始 PR · 作者 jhchouuu · 合并时间 2026-04-25 04:12

基础设施重要性 2.77 洞察度 1.00

更新AMD MoRI版本至v1.1.1

建议合并。该PR是常规依赖升级，变更简单明确。可关注后续CI中AMD相关测试是否通过，确认新版本兼容性。

amdcidependencies

#21985 perf: eliminate attention DtoD copy by passing pre-allocated output to FA

原始 PR · 作者 jasperjiaguo · 合并时间 2026-04-25 03:05

性能优化重要性 6.44 洞察度 6.00

消除注意力层 DtoD 拷贝，每层节省约 14μs

值得精读。本 PR 展示了如何通过 PyTorch 的 out 参数和 op schema 别名标注消除不必要的张量拷贝，是性能优化的经典案例。团队内的推理引擎开发人员应关注其中的设计权衡（如用 forward_batch 属性而非 kwargs 传递输出），以应用到其他相似场景。

performancesgl-kerneljit-kernel

#23533 support Hy3 preview

原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-25 03:03

功能重要性 9.18 洞察度 7.00

支持腾讯混元V3(Hy3-preview)模型推理与工具调用

该PR值得精读，特别是双流MoE重叠方案、自定义融合TopK kernel的实现、以及流式工具解析器的增量输出设计。建议后续关注group topk kernel的重构和AMD兼容性修复。

featurejit-kernelmoe

#23595 Deprecate --collect-tokens-histogram, auto-collect with --enable-metrics

原始 PR · 作者 merrymercy · 合并时间 2026-04-25 03:00

重构重要性 6.05 洞察度 3.00

弃用 --collect-tokens-histogram，由 --enable-metrics 自动收集

该 PR 属于配置简化类变更，技术深度不高。但如果需要了解 SGLang 的可观测性配置或如何优雅地弃用 CLI 参数（DeprecatedAction），值得快速阅读。对于普通开发、运维人员，建议了解变更后将 --collect-tokens-histogram 从部署脚本中移除。

observabilityrefactorrun-ci

#23649 [diffusion] support LoRA for LTX2.3

原始 PR · 作者 mickqian · 合并时间 2026-04-25 01:52

功能重要性 9.18 洞察度 6.00

为LTX2.3添加LoRA支持与多条件图像

值得精读，特别关注 `linear.py` 中的 LoRA 权重管理重构和多条件图像的 SP 支持设计；但需注意 review 指出的两个正确性风险，若未修复应尽快跟进。文档片段 `ltx-deployment.jsx` 作为交互式配置示例，可用于其他部署场景。

diffusionlorafeature

第 212 / 357 页 · 共 2850 条

上一页 1 … 210 211 212 213 214 … 357 下一页