Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-05-31
2026-05-30
功能 重要性 6.94 洞察度 5.00

支持自定义 Hybrid SWA 模型通过 HF 配置注册

建议精读,这是一个典型的通过配置接口开放框架能力的优秀设计。关注 `is_hybrid_swa_model` 的降级逻辑和 `get_hybrid_layer_ids` 的回退分支,可作为类似扩展点的参考。

#24755 Optimize large add_constant tensors

原始 PR · 作者 BBuf · 合并时间 2026-05-30 22:25

性能优化 重要性 7.06 洞察度 5.00

向量化 add_constant 大张量,H200 加速 35%

值得精读。向量化 kernel 的设计(架构感知向量宽度、对齐检查、阈值判断、fallback 路径)是 CUDA kernel 优化的典型模式。benchmark 的实现也值得参考,可以复用到其他 kernel。

缺陷修复 重要性 7.98 洞察度 6.00

修复 NPU MTP 草稿模型未量化时的服务器崩溃

该 PR 修复了 NPU 上 MTP 未量化场景的关键崩溃,值得合并。但需要关注标准 DeepEP 量化路径的手动环境变量问题,建议跟踪 #26408 中的讨论以确定最终方案。

重构 重要性 8.35 洞察度 6.00

推迟 prefill input_ids 的 H2D 拷贝至 forward 流,统一 resolve 路径

值得精读,展示了如何通过 FutureMap 统一不同模式(overlap/non-overlap、prefill/decode)下的输入准备。设计决策如“始终初始化 FutureMap”和“通过 sentinel None 触发 relay”值得关注。建议合并前确保 benchmark 无性能回退。

功能 重要性 9.18 洞察度 6.00

新增 SGLANG_RAY_BUNDLE_INDICES 实现细粒度 Ray 工作者放置

建议仔细阅读 `_resolve_bundle_indices` 的验证逻辑和 `_launch_scheduler_processes` 的分支设计。Custom PG 模式下每个 bundle 只能包含 1 GPU 的假设被硬编码在 `_validate_custom_placement_group` 中,若未来需要支持多 GPU per bundle 需重新设计。该 PR 的设计模式(两分支分离、统一 actor 创建函数)值得在后续 Ray Engine 扩展中借鉴。对 DP 场景的 rank0_node_ip 修复也是关键改动。

功能 重要性 6.49 洞察度 5.00

支持 dense MLP 与 attention 共享 TP 组的并行

值得精读,尤其是 communicator.py 中新增的通信模式。设计上保持了与现有 `_simple` / `_gather_*` 分支的一致性,代码简洁。建议后续补充单元测试,并考虑在文档中明确 `moe_dense_tp_size` 的取值范围和限制。

参与讨论