Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-13 17:27 同步状态：空闲下次计划：2026-06-13 18:27

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-20

#25814 Update GLM-5 H200 FP8

原始 PR · 作者 faradawn · 合并时间 2026-05-20 14:44

其他重要性 3.67 洞察度 2.00

GLM-5 部署脚本启用 flashinfer allreduce fusion

值得关注的是文档和交互组件与真实部署配置的一致性维护方式。后续类似硬件配置优化可参考此模式。

documentationinfraperformance

#25359 [Docs] MiMo-V2.5 cookbook: B200 benchmarks + multi-layer EAGLE acceptance profile + long-context reference

原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-20 14:15

文档重要性 4.84 洞察度 4.00

MiMo-V2.5 cookbook 填充 B200 基准测试并启用 Blackwell 多层 EAGLE

建议 MiMo-V2.5 用户阅读此 cookbook 获取 B200 性能数据和多层 EAGLE 配置说明。文档展示了多 EAGLE 层接受率的实际影响，对性能调优有参考价值。

documentationperformance

#25356 [AMD] test(sgl-kernel): seed RNG on ROCm in test_moe_topk_sigmoid to fix tie-break flake

原始 PR · 作者 michaelzhang-ai · 合并时间 2026-05-20 14:01

缺陷修复重要性 4.81 洞察度 4.00

为 AMD 测试添加确定性种子修复偶发失败

建议精读。这是一个小而精的测试修复案例，展示了如何通过最小侵入性修改（单文件 +8 行）解决平台相关的随机性问题，值得测试工程师参考。

sgl-kernelamdbugfix

#25786 [Bug] Correct Weight Offloader's Attribute Name for torch.nn.Parameter

原始 PR · 作者 xiaobao520123 · 合并时间 2026-05-20 13:28

缺陷修复重要性 4.53 洞察度 3.00

修复 Parameter 属性名 typo

PR 值得合并，但 reviewer 提出的简化建议（`getattr` 和 `isinstance`）可考虑在后续重构中一并优化，以提高代码健壮性和可维护性。

bugfixrefactor

#25532 [fp8] SM90 swap-AB scaled_mm dispatch (~1.16x kernel geomean, +5.8-18.5% end-to-end)

原始 PR · 作者 yuan-luo · 合并时间 2026-05-20 13:20

性能优化重要性 9.18 洞察度 7.00

SM90 FP8 GEMM 引入 swap-AB 调度，小 batch 解码加速 1.16x

建议精读，特别是 fp8_gemm_sm90_dispatch.cuh 中基于 M/N 的分桶策略、swap-AB 的模板化实现以及 epilogue 的广播抽象。该 PR 展示了如何通过 CUTLASS 3.x EVT 灵活组合高效 GEMM 变体，对于未来 sgl-kernel 支持的优化有参考价值。

performancesgl-kernelquant

#25825 [Refactor] Pass PP start_layer via model constructor instead of forward_batch.token_to_kv_pool

原始 PR · 作者 ch-wan · 合并时间 2026-05-20 13:16

重构重要性 6.91 洞察度 5.50

通过构造函数传递 PP start_layer 以解耦 ForwardBatch

该 PR 是典型的接口清洁重构，值得精读。展示了如何分步将静态配置从运行时对象剥离，并且带测试覆盖和连带 bug 修复。设计决策（使用构造函数参数而非全局单例或上下文）值得借鉴。

refactorschedulingdeepseek

#25845 Revert "[codex] Update Wan2.2 ModelOpt CI checkpoints"

原始 PR · 作者 ch-wan · 合并时间 2026-05-20 12:45

其他重要性 6.81 洞察度 2.00

回滚 #25483，恢复 Wan2.2 ModelOpt 检查点为旧版 lmsys 路径

该 revert 保证主线稳定性，应被接受。建议后续： - 分析原 PR 的 CI 失败原因（可能是环境变量或权重版本不匹配）。 - 若需要重新引入，应先在分支上充分验证。 - 文档和示例应尽快更新，避免用户使用已回滚的路径。

diffusionquantinfra

#25748 loader: yield filtered MTP weights lazily to avoid OOM hang on multi-layer EAGLE

原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-20 12:33

缺陷修复重要性 6.60 洞察度 6.00

延迟 MTP 权重过滤修复 OOM 挂起

值得精读的 bugfix 典范：一行的逻辑错误（tuple 强制物化）导致整个系统在特定配置下不可用，修复后效果显著。代码改动虽小，但不熟悉迭代器模型的人容易犯同样错误。

bugfixperformancedeepseek

第 134 / 396 页 · 共 3165 条

上一页 1 … 132 133 134 135 136 … 396 下一页