Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-31

#26779 [core] Compute dimensions/return_pooled_hidden_states in ForwardBatch.init_new

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-31 08:38

重构重要性 6.80 洞察度 4.00

将 dimensions 等计算移至 ForwardBatch.init_new

值得阅读该 PR 以了解如何将只被下游消费者使用的计算从调度器迁移至前向初始化阶段，这是一种典型的分层清理方法。

refactorschedulinginfra

2026-05-30

#23988 [config] Recognize custom hybrid SWA models via hf_text_config.is_hybrid_swa

原始 PR · 作者 brucechanglongxu · 合并时间 2026-05-30 23:21

功能重要性 6.94 洞察度 5.00

支持自定义 Hybrid SWA 模型通过 HF 配置注册

建议精读，这是一个典型的通过配置接口开放框架能力的优秀设计。关注 `is_hybrid_swa_model` 的降级逻辑和 `get_hybrid_layer_ids` 的回退分支，可作为类似扩展点的参考。

featurerefactorconfiguration

#24755 Optimize large add_constant tensors

原始 PR · 作者 BBuf · 合并时间 2026-05-30 22:25

性能优化重要性 7.06 洞察度 5.00

向量化 add_constant 大张量，H200 加速 35%

值得精读。向量化 kernel 的设计（架构感知向量宽度、对齐检查、阈值判断、fallback 路径）是 CUDA kernel 优化的典型模式。benchmark 的实现也值得参考，可以复用到其他 kernel。

performancejit-kernelbenchmark

#26389 【NPU】【bugfix】fix server error when mtp unquant

原始 PR · 作者 cen121212 · 合并时间 2026-05-30 20:01

缺陷修复重要性 7.98 洞察度 6.00

修复 NPU MTP 草稿模型未量化时的服务器崩溃

该 PR 修复了 NPU 上 MTP 未量化场景的关键崩溃，值得合并。但需要关注标准 DeepEP 量化路径的手动环境变量问题，建议跟踪 #26408 中的讨论以确定最终方案。

bugfixnpudeepseek

#25945 [Scheduler] Defer prefill input_ids H2D to forward stream, unify resolve via future_map

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-30 17:58

重构重要性 8.35 洞察度 6.00

推迟 prefill input_ids 的 H2D 拷贝至 forward 流，统一 resolve 路径

值得精读，展示了如何通过 FutureMap 统一不同模式（overlap/non-overlap、prefill/decode）下的输入准备。设计决策如“始终初始化 FutureMap”和“通过 sentinel None 触发 relay”值得关注。建议合并前确保 benchmark 无性能回退。

refactorperformancescheduling

#24667 feat: add SGLANG_RAY_BUNDLE_INDICES for fine-grained Ray bundle index control

原始 PR · 作者 KaisennHu · 合并时间 2026-05-30 17:19

功能重要性 9.18 洞察度 6.00

新增 SGLANG_RAY_BUNDLE_INDICES 实现细粒度 Ray 工作者放置

建议仔细阅读 `_resolve_bundle_indices` 的验证逻辑和 `_launch_scheduler_processes` 的分支设计。Custom PG 模式下每个 bundle 只能包含 1 GPU 的假设被硬编码在 `_validate_custom_placement_group` 中，若未来需要支持多 GPU per bundle 需重新设计。该 PR 的设计模式（两分支分离、统一 actor 创建函数）值得在后续 Ray Engine 扩展中借鉴。对 DP 场景的 rank0_node_ip 修复也是关键改动。

featureschedulinginfra

#26573 [NPU] fix model llava-onevision-qwen2-7b-ov torch compiles error in npu case

原始 PR · 作者 ZeyuanChen2000 · 合并时间 2026-05-30 17:10

缺陷修复重要性 5.38 洞察度 3.00

修复 NPU 环境下 torch.compile 导致图执行错误

该 PR 是低风险的必要修复，可快速合并。值得关注的是后续是否需要对 NPU 平台上的 `torch.compile` 进行更精细的配置（例如仅禁用某些后端），而非完全禁用。

bugfixnputest

#23996 [parallel] Support moe_dense_tp_size == attn_tp_size to share the attention TP group

原始 PR · 作者 brucechanglongxu · 合并时间 2026-05-30 17:10

功能重要性 6.49 洞察度 5.00

支持 dense MLP 与 attention 共享 TP 组的并行

值得精读，尤其是 communicator.py 中新增的通信模式。设计上保持了与现有 `_simple` / `_gather_*` 分支的一致性，代码简洁。建议后续补充单元测试，并考虑在文档中明确 `moe_dense_tp_size` 的取值范围和限制。

featureschedulingperformance

第 43 / 357 页 · 共 2850 条

上一页 1 … 41 42 43 44 45 … 357 下一页