Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-06-05

#26496 Changes for SM120 perf and usability for NVFP4

原始 PR · 作者 b8zhong · 合并时间 2026-06-05 06:29

性能优化 重要性 7.07 洞察度 5.00

SM120 NVFP4 性能与可用性优化

值得精读,该 PR 展示了针对特定硬件 (SM120) 进行系统性性能优化的典型方法:从后端选择、autotune 触发、kernel 配置到量化修复,覆盖了整个推理链路。设计权衡(如后端切换原因、配置一致性处理)有参考价值。建议重点关注 `_should_run_flashinfer_autotune` 和 `try_get_optimal_moe_config` 的变更逻辑。

#27296 Add --enable-symm-mem for Qwen3.5

原始 PR · 作者 faradawn · 合并时间 2026-06-05 06:23

功能 重要性 3.67 洞察度 2.00

为 Qwen3.5 添加 H100 FP8 下的 --enable-symm-mem 支持

建议合并,属于有益的文档改进。无需深度审查。

功能 重要性 5.75 洞察度 4.00

新增 FlashInfer NVFP4 4over6 支持

此 PR 值得精读,展示了如何集成上游量化新特性,并通过环境变量控制运行时行为。重点关注 `environ.py` 中环境变量的定义规范和 `flashinfer_trtllm.py` 中条件量化的实现模式。

#23979 Enable DeepGEMM PDL on by default

原始 PR · 作者 b8zhong · 合并时间 2026-06-05 05:13

性能优化 重要性 4.58 洞察度 2.00

默认启用 DeepGEMM PDL

此 PR 是低风险、有明确性能收益的微小优化,适合合并。建议相关工程师了解 PDL 的基本原理,以及通过环境变量控制该特性的方式。

参与讨论