Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-19

#25690 [Fix] Try to fix error caused by latest cutedsl packages

原始 PR · 作者 Fridge003 · 合并时间 2026-05-19 07:51

缺陷修复重要性 4.04 洞察度 3.00

修复新版 cutdsl 包导致的 CI 错误

作为基础设施修复，建议合并。如果团队使用其他 CUDA 版本（如 cu12），需确认此类 extras 标记是否适用。

dependenciesinfrabugfix

#25686 Use SGLANG_CACHE_DIR env for gpu_p2p_access_cache path

原始 PR · 作者 merrymercy · 合并时间 2026-05-19 07:00

基础设施重要性 4.97 洞察度 3.00

P2P缓存路径使用SGLANG_CACHE_DIR环境变量

该 PR 是一个小的基础设施改进，推荐快速合并。技术团队可作为参考，类似硬编码路径问题应统一交由环境变量管理。

infrarefactorci

#25688 Add no_combine support to cutlass_moe_fp4

原始 PR · 作者 merrymercy · 合并时间 2026-05-19 06:59

功能重要性 5.75 洞察度 5.00

为 cutlass_moe_fp4 添加 no_combine 支持

值得精读。该 PR 是一个典型的 API 对齐改进，确保 cutlass 路径与 triton 路径在 no_combine 特性上保持一致。代码改动量小但意义明确，是支持 FP4 MoE 专家并行的重要基础。

quantmoeperformance

#25685 [SP] Fix runtime_max_tokens_per_rank for sequence parallelism

原始 PR · 作者 merrymercy · 合并时间 2026-05-19 06:59

缺陷修复重要性 5.70 洞察度 5.00

修复 SP 下 runtime_max_tokens_per_rank 过大问题

建议需要关注 MoE + 序列并行性能的团队成员精读该改动。设计思路清晰（区分 DP attention 与 SP 的 workspace 需求），可作为类似分配逻辑的优化参考。

performancebugfixmoe

#25509 [misc] Throw error when single batch overlap is enabled on Hopper

原始 PR · 作者 Fridge003 · 合并时间 2026-05-19 05:51

缺陷修复重要性 4.62 洞察度 3.00

Hopper GPU 上禁用 SBO 特性

PR 改动小且明确，建议合并。

bugfixmoeperformance

#25687 ci: pr-states match renamed "PR Test Base" workflow_run

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-19 05:42

缺陷修复重要性 2.60 洞察度 1.00

修复 CI 工作流名称不匹配

该 PR 为一次简单的配置修复，值得快速合并。

cibugfix

#25566 [Spec] fold can_run_cuda_graph into EagleVerifyOutput; drop dead extend-after-decode check

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-19 05:24

重构重要性 6.97 洞察度 5.00

重构 speculative verify 返回类型并清理死代码

值得精读。该 PR 展示了如何通过将私有数据折叠到数据类中来简化接口，并主动清理死代码以降低技术债务。对于参与 speculative decoding 维护的开发者很有参考价值。

refactorspeculative-decodinginfra

#25684 [CI] Enable weight prefetch for 8-gpu-h200 basic tests

原始 PR · 作者 ch-wan · 合并时间 2026-05-19 05:12

基础设施重要性 3.88 洞察度 3.00

为 8-GPU H200 CI 测试启用权重预取

该 PR 技术难度低、风险小，但效益显著，建议快速合并。其中值得关注的设计决策是在多线程加载的同时启用预取——两者叠加带来了 5.9× 的加载加速，表明两者协作良好。后续可将此标志扩展到其他 8-GPU 测试，以进一步加速 CI 套件。

ciperformanceinfra

第 105 / 357 页 · 共 2850 条

上一页 1 … 103 104 105 106 107 … 357 下一页