Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 19:01 同步状态:空闲 下次计划:2026-06-07 20:01

PR 列表

更多筛选
2026-03-30

#21315 [AMD] Fused rope kv store

原始 PR · 作者 kkHuang-amd · 合并时间 2026-03-30 15:05

性能优化 重要性 7.00 洞察度 6.00

针对 AMD GPU 的 RoPE 与 KV 缓存融合性能优化。

建议精读此 PR,关注融合 Triton 内核的设计决策、避免双重应用 RoPE 的条件逻辑(如 `enable_fused_set_kv_buffer` 检查),以及 HIP 路径集成方式,这些对于理解性能优化和硬件特定支持有重要参考价值。

功能 重要性 6.00 洞察度 5.00

为 Qwen3-VL 和 Qwen3-Omni 添加 CPU 旋转位置嵌入核函数以优化性能。

建议精读此 PR,特别是核函数实现中的向量化技巧和并行化策略,对于优化 CPU 推理性能有借鉴价值。关注 `rope.cpp` 中的算法设计和 `utils.py` 中的条件调度逻辑。

#14702 fix topk softmax performance issue

原始 PR · 作者 mingfeima · 合并时间 2026-03-30 14:43

性能优化 重要性 5.00 洞察度 3.00

修复 topk softmax 性能问题,改用 partial sort 减少排序范围。

该 PR 变更简单直接,建议工程师快速浏览以学习 partial sort 的应用,但无需深入分析设计决策,可重点关注排序边界条件的处理。

#19395 MFU metrics in Prometheus

原始 PR · 作者 aramasethu · 合并时间 2026-03-30 14:40

功能 重要性 6.00 洞察度 6.00

为SGLang服务器添加可选的MFU相关Prometheus指标,以提供GPU性能估计。

建议工程师精读scheduler_metrics_mixin.py中的估计逻辑和metrics_collector.py中的计数器实现,关注门控设计和性能权衡;技术管理者可参考此PR以可选方式扩展可观测性功能的策略。

测试 重要性 5.00 洞察度 4.00

改用离线量化检查点提升MXFP8 Gemm CI测试稳定性。

建议快速审查并合并,以解决CI不稳定性问题。值得关注的设计决策:使用离线量化检查点避免在线量化路径的不稳定性,这是一种实用解决方案,但未来应考虑优化在线量化以提高通用性。同时,关注Triton测试的性能优化进展。

#21659 [Doc] Update tips for developer new-comers

原始 PR · 作者 Fridge003 · 合并时间 2026-03-30 13:40

文档 重要性 2.00 洞察度 2.00

更新贡献指南,添加新人入门资源链接,包括Mini-SGLang和GTC-2024训练实验室。

此PR值得新贡献者或文档维护者快速浏览以了解新增资源,但无需深入代码分析;关注审核中的一致性改进和错误纠正即可。

功能 重要性 6.00 洞察度 4.00

为Intel GPU(XPU)启用DeepSeek R1模型的FP8精度推理支持。

该PR值得精读,关注设备抽象的设计决策,如使用get_device()和torch.get_device_module()实现多设备兼容的模式。建议工程师学习如何优雅处理硬件差异,并注意review中提到的潜在风险点,特别是测试覆盖和设备特定逻辑的适配。

参与讨论