Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-16

#25233 [Fix] DeepSeek-V3.2: build structural tag locally to encode both wrapper and invoke layers

原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-16 05:32

缺陷修复重要性 7.99 洞察度 6.00

本地构建结构标签修复并行工具调用

值得精读。PR 展示了如何通过 override detector 方法在本地构建结构化标签来绕过上游 bug，设计清晰、docstring 详尽。团队应关注 xgrammar 上游修复进度，以便未来移除 override。

deepseekbugfixtest

#25318 split test_dsa_models_mtp into 4 files

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-16 05:16

测试重要性 7.81 洞察度 4.00

拆分 DSAMTP 测试为 4 文件，避免 CI 超时

如果你关注 CI 流水线优化或测试架构设计，这个 PR 值得精读。特别是通过多重继承（Mixin）组合测试逻辑的模式，在 SGLang 测试框架中已有大量使用，该 PR 是良好的实践案例。对于仅使用 SGLang 推理的用户，可快速浏览了解变更即可。

testrefactorci

#25394 [CI] slash handler: lookup `runs_on` from `runner_configs.yml`

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-16 04:59

重构重要性 6.84 洞察度 5.00

重跑测试从 YAML 动态解析 runner 标签

值得所有涉及 CI 维护的开发者精读，学习如何通过 YAML 配置驱动 workflow、移除硬编码表。重点关注 `_extract_runner_config` 的实现和 `rerun-test.yml` 的拆分模式。

cirefactorinfra

#25379 feat(moe): reuse prev-layer output as symm_output for FP4 routed MoE

原始 PR · 作者 ch-wan · 合并时间 2026-05-16 03:05

性能优化重要性 7.32 洞察度 6.00

重用前层MoE输出减峰值内存539MB

建议团队精读此 PR，尤其是 ContextVar 传递临时缓冲区的设计模式和显式清除注意力输入以缩短 tensor 生命周期的实践。对于 hot path 的性能优化建议（预计算标志、内联导入上提）需在后续迭代中采纳。

deepseekperformancemoe

#25370 [NEW MODEL] Add H200 validation for Ring-2.6-1T cookbook

原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-16 02:47

文档重要性 3.98 洞察度 2.00

为 Ring-2.6-1T 新增 H200 x8 部署文档与基准测试

PR 内容清晰简洁，改动合规；适合合并。对于关注 H200 部署的用户有参考价值，其余开发者可快速浏览。

documentation

#24096 Introduce CudaDeviceMixin and CudaSRTPlatform

原始 PR · 作者 alexnails · 合并时间 2026-05-16 01:59

功能重要性 8.92 洞察度 6.00

引入 CudaDeviceMixin 与 CudaSRTPlatform 平台抽象层

值得精读。该 PR 是 SGLang 平台抽象层的关键基础设施，设计模式（Mixin + 自动发现、ROCm 继承 CUDA）对多硬件支持有借鉴意义。关注设备操作接口定义与回退逻辑，为后续 OOT 插件扩展提供参考。

featurerefactoramd

#25333 perf(mla): hybrid Triton fused cat+FP8-quantize for MLA chunked-prefill K/V

原始 PR · 作者 ch-wan · 合并时间 2026-05-16 01:51

性能优化重要性 9.18 洞察度 6.00

MLA chunked-prefill K/V融合cat+FP8量化单核，最高10x加速

建议精读。该PR不仅带来了显著的性能提升（5.5×-10×），还在以下方面具有工程借鉴价值： - 通过Triton内核融合消除中间全局内存数据，是GPU性能优化的典型手法。 - 混合调度器针对不同batch size选择网格维度和配置，体现了对GPU计算/内存行为分区的深刻理解。 - 通过duck-typing挂钩集成，无需修改现有注意力后端，保持了接口清晰和回退安全。 - 完整的性能调优过程和Benchmark表格可作为同类优化的参考模板。

performancejit-kernelquant

#25089 [Llama4] Use strided in-place fused QK RMSNorm to drop a redundant copy

原始 PR · 作者 kevin85421 · 合并时间 2026-05-16 01:33

性能优化重要性 6.82 洞察度 6.00

Llama4 CUDA 路径消除冗余拷贝

该 PR 值得精读，尤其是它展示了如何利用现有融合内核来消除冗余拷贝，是一种低风险、高收益的微优化。对于性能敏感型开发者，建议学习 `apply_qk_norm` 的使用模式。建议在后续 PR 中添加自动化测试和 benchmark。

performancellamacuda

第 121 / 357 页 · 共 2850 条

上一页 1 … 119 120 121 122 123 … 357 下一页