Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-05-26
功能 重要性 7.69 洞察度 6.00

EPD 编码器跨请求批处理图像/音频

建议精读 encode_server.py 中的 EncoderScheduler 设计,特别是积累窗口机制和预验证逻辑。值得关注的决策包括 tile 扩展适配、音频采样率修复、环境变量统一声明。如果需要扩展批处理到视频或其他模态,可参考此设计模式。

#26200 [GDN] Support SM100 CuTeDSL GDN Prefill Kernel

原始 PR · 作者 yuan-luo · 合并时间 2026-05-26 15:38

功能 重要性 9.18 洞察度 6.00

为Blackwell SM100添加CuTeDSL GDN预填充内核

建议Blackwell工作负载的用户启用 `--linear-attn-prefill-backend cutedsl` 以获取性能收益。开发者应重点关注 `gdn_cutedsl.py` 中的集成模式以及 `GDNKernelDispatcher` 的回退机制设计,这为后续添加其他后端提供了参考模式。同时,建议为 `extend()` 添加更多单元测试以增强鲁棒性。

缺陷修复 重要性 8.06 洞察度 7.00

规范化工具参数中非标准 JSON Schema 类型映射

该 PR 设计清晰,测试完备,建议合并。后续可考虑: 1. 增加最大深度限制以防御堆栈溢出。 2. 将 `_PREFIX_BOUNDARY_CHARS` 与前缀规则文档化,供用户参考。 3. 在 CHANGELOG 中标注此兼容行为。

性能优化 重要性 5.97 洞察度 6.00

融合 kernel 优化 MoE FP4 后处理性能

该 PR 是典型的性能优化案例,展示了如何通过 kernel 融合减少 MoE 后处理开销。推荐精读 `cutlass_moe.py` 中的融合策略,以及对应的 `apply_shuffle_mul_sum` 内核实现。对于正在优化 MoE 推理的工程师有直接参考价值。

#26208 [AMD] Dsv4/pr2 compressor opt

原始 PR · 作者 kkHuang-amd · 合并时间 2026-05-26 14:54

性能优化 重要性 9.36 洞察度 7.00

AMD DSV4 压缩与注意力 Triton 内核融合优化

建议精读 fused kernel 的设计和 autotune 策略,尤其 `_should_use_fused_dual_scope` 的决策逻辑和基于 workload size 的分级 dispatch。对于涉及 online softmax 的 kernel,review 中的 NaN 修复模式值得推广。

缺陷修复 重要性 6.35 洞察度 5.00

修复 FA3 跨注意力对变长编码器的批处理支持

建议精读该 PR,尤其是 `init_forward_metadata` 中 fancy indexing 的构造方式。这是一个典型的注意力元数据构建 bug 修复,设计简洁,且验证充分,对于理解 SGLang 中跨注意力的批处理实现有很好的参考价值。

#26344 [Doc] Update pip install commands for Cuda12

原始 PR · 作者 Fridge003 · 合并时间 2026-05-26 13:28

文档 重要性 2.83 洞察度 1.00

更新 CUDA 12 安装命令到文档

可直接合并,文档变更轻量且无副作用。建议后续维护者关注 cu129 索引 URL 是否正确指向 CUDA 12 包。

#26112 [Kernel] Reuse WNA16 Marlin MoE workspace

原始 PR · 作者 mickqian · 合并时间 2026-05-26 13:19

性能优化 重要性 5.79 洞察度 5.00

WNA16 MoE Marlin 工作空间复用优化

该 PR 是一个小而有效的性能优化,值得合并。建议关注 workspace 大小参数是否应可配置,以及是否可推广到其他 MoE 后端。

参与讨论