Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-09

#24684 Filter non-int token ids in benchmark and observe decode-side bootstrap/alloc metrics

原始 PR · 作者 merrymercy · 合并时间 2026-05-09 02:45

重构重要性 5.75 洞察度 5.00

基准测试过滤非整数token ID，并增加解码端指标

建议精读，特别是新增的解码端指标逻辑，可作为类似观测扩展的参考。同时 review 中的建议值得采纳，以提高鲁棒性。

benchmarkobservability

2026-05-08

#24688 [diffusion] fix FA3 varlen out argument handling

原始 PR · 作者 mickqian · 合并时间 2026-05-08 19:01

缺陷修复重要性 5.10 洞察度 4.00

修复 FA3 varlen 注意力 out 参数传递错误

建议批准合并。该 PR 修复了一个实际运行时的 bug，影响面小，逻辑清晰。后续可考虑为 _call_fa3_kernel 添加单元测试。

bugfixdiffusionjit-kernel

#24682 [diffusion] doc: update ltx2 multi-gpu deployment guide

原始 PR · 作者 mickqian · 合并时间 2026-05-08 18:38

文档重要性 5.81 洞察度 4.00

更新 LTX 多 GPU 部署文档

对于使用 LTX 模型的用户，建议仔细阅读新增的多 GPU 预设部分。对于前端组件维护者，可参考 `getParallelFlags` 的对象查找模式。

documentationdiffusion

#24129 fix(aiter): drop FP8 KV upcast; use native FP8 path in paged_attentio…

原始 PR · 作者 fanxingran · 合并时间 2026-05-08 17:47

重构重要性 6.90 洞察度 6.00

移除 Aiter 后端 FP8 KV upcast，使用原生 FP8 路径

值得精读，尤其关注 FP8 推理优化路径的开发者。核心设计决策是消除隐式 upcast，利用内核原生 FP8 支持，这是 FP8 推理的最佳实践。需确认 aiter 内核的缩放因子处理是否与当前实现一致。

performancerefactorkv-cache

#24360 [AMD] Replace naive triton RMSNorm with aiter RMSNorm for diffusion model

原始 PR · 作者 yichiche · 合并时间 2026-05-08 17:44

功能重要性 6.80 洞察度 5.00

AMD扩散模型RMSNorm替换为aiter内核，加速30%

值得合并，改动清晰且风险可控。建议作者后续添加单元测试以覆盖 `forward_aiter` 的各种输入情况（包括 fp32 回退、残差分支、非连续张量等），确保长期维护性。该 PR 展示了如何在后端利用专用算子库（aiter）替换通用实现，是良好的微优化案例。

amddiffusionperformance

#22971 [AMD][diffusion] Temporal-unfolded batched Conv2D for ROCm VAE decode

原始 PR · 作者 yctseng0211 · 合并时间 2026-05-08 17:32

功能重要性 7.51 洞察度 6.00

ROCm VAE 解码：时间展开 Conv2D 加速 3.6%

值得阅读学习时间展开的实现技巧和平台抽象层的优化模式。建议后续跟进未采纳的评审建议，增强替换代码的鲁棒性（如声明支持的卷积参数范围）。

amddiffusionperformance

#24676 [NPU] [DOC] refresh npu supported model list

原始 PR · 作者 amote-i · 合并时间 2026-05-08 17:08

文档重要性 4.22 洞察度 2.00

刷新 NPU 支持的模型列表

此 PR 属于常规文档维护，适合快速合并。但建议后续在文档中注明模型版本与代码配置的对应关系，或增加自动校验机制。

documentationnpu

#24363 Turn on JIT custom AR implementation by default

原始 PR · 作者 b8zhong · 合并时间 2026-05-08 17:05

基础设施重要性 5.02 洞察度 3.00

默认开启 JIT 自定义 AR v2

建议关注此 PR，因为它是默认行为变更，可能影响所有 CUDA 用户的推理性能。尤其是之前依赖原始 all-reduce 实现的用户应测试回归。

performancekubernetes

第 158 / 357 页 · 共 2850 条

上一页 1 … 156 157 158 159 160 … 357 下一页