Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-05-30
性能优化 重要性 7.73 洞察度 6.00

融合 NVFP4 gate_up_gemm+Swish+输出量化,K2.5 推理提升约 2%

本 PR 展示了如何利用 CUTLASS DSL 进行算子融合来优化特定硬件路径。推荐算法工程师和推理优化工程师阅读,重点关注融合策略和权重重排方案。对于不涉及 Blackwell 或 NVFP4 的开发者,可跳过源码细节。

重构 重要性 9.13 洞察度 6.00

统一 Attention 后端 CUDA Graph capture/replay

值得深入阅读,尤其是提取的 Pattern A/B 设计,可作为未来添加新注意力后端的模板。PR 提交颗粒度清晰,每条 commit 对应一个后端,易于 review。建议阅读 commits 中的详细消息(如 FlashMLABackend 的 q_head_mult 偏移技巧)。对于维护者,建议运行完整的注意力单元测试套件以确保无回归。

功能 重要性 5.85 洞察度 6.00

Qwen3.5 cookbook更新:多节点、MTP TP覆盖与mamba标志

建议阅读此PR以了解如何为cookbook维护多节点和条件配置模式,特别是状态钻取和条件覆盖的React模式。对于部署团队,验证生成命令的准确性。

缺陷修复 重要性 7.73 洞察度 6.00

回滚 #25910 VLM 批处理优化,修复 AMD CI 崩溃与性能回退

建议所有涉及 VLM 多模态编码的开发者精读此 PR,特别是 `_get_chunked_prefill_embedding` 函数中 `torch.split` 的使用陷阱。回滚本身是安全的,但值得关注 #25910 中暴露的设计问题:当模型编码器返回的 embedding 长度与输入侧的占位符跨度不一致时,必须通过实际返回的行数来驱动分割,而非假设 `sum(end-start+1)` 一致。后续重新实现批处理优化时应优先采纳这一教训。

2026-05-29
缺陷修复 重要性 6.38 洞察度 6.00

对齐 seq_lens 约定,修复 FA3/FA4 CG 测试回归

该 PR 值得精读,特别是它展示了如何系统地定位一个从生产约定到测试夹具再到多个 backend 的连锁不一致问题。设计决策(在 Triton CG 中从 seq_lens 计算 kv_lens 而不是直接使用)和 clamp 技巧值得关注。

重构 重要性 7.57 洞察度 4.00

拆分 UnifiedRadixTree KL CI 测试文件以减少 GPU 占用量。

适合 CI 维护者和测试架构学习者精读,了解如何通过测试文件拆分和资源配置优化 CI 成本。设计决策值得注意:每个测试文件按模型类型和资源需求独立配置,而非统一使用最高配置。

#26673 [refactor] remove unused op_mlp

原始 PR · 作者 akhoroshev · 合并时间 2026-05-29 17:38

重构 重要性 6.60 洞察度 2.00

删除 6 个 MoE 模型中的未使用 op_mlp 方法

该 PR 属于常规清理,建议快速合并。值得注意的设计决策是 TBO 调度模式中 MLP 步骤已通过其他方式(如直接内联)实现,此删除验证了模块化重构的进展。

参与讨论