Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 19:01 同步状态：空闲下次计划：2026-06-07 20:01

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-30

#21315 [AMD] Fused rope kv store

原始 PR · 作者 kkHuang-amd · 合并时间 2026-03-30 15:05

性能优化重要性 7.00 洞察度 6.00

针对 AMD GPU 的 RoPE 与 KV 缓存融合性能优化。

建议精读此 PR，关注融合 Triton 内核的设计决策、避免双重应用 RoPE 的条件逻辑（如 `enable_fused_set_kv_buffer` 检查），以及 HIP 路径集成方式，这些对于理解性能优化和硬件特定支持有重要参考价值。

performancejit-kernelfeature

#14385 [CPU] Implement MXFP4 Gemm kernels for intel AMX to support GPT OSS series.

原始 PR · 作者 mingfeima · 合并时间 2026-03-30 14:44

功能重要性 6.00 洞察度 6.00

为Intel AMX实现MXFP4 GEMM内核，以支持GPT OSS系列模型推理。

建议技术管理者精读gemm_fp8.cpp中的AVX512实现和vec.h中的MXFP4转换逻辑，以了解低级优化技巧。工程师可关注tinygemm接口设计，评估其复用价值。

featurequantperformance

#13121 [CPU] add kernel apply_rotary_pos_emb_cpu for Qwen3-VL and Qwen3-Omni

原始 PR · 作者 blzheng · 合并时间 2026-03-30 14:43

功能重要性 6.00 洞察度 5.00

为 Qwen3-VL 和 Qwen3-Omni 添加 CPU 旋转位置嵌入核函数以优化性能。

建议精读此 PR，特别是核函数实现中的向量化技巧和并行化策略，对于优化 CPU 推理性能有借鉴价值。关注 `rope.cpp` 中的算法设计和 `utils.py` 中的条件调度逻辑。

featureperformancejit-kernel

#14702 fix topk softmax performance issue

原始 PR · 作者 mingfeima · 合并时间 2026-03-30 14:43

性能优化重要性 5.00 洞察度 3.00

修复 topk softmax 性能问题，改用 partial sort 减少排序范围。

该 PR 变更简单直接，建议工程师快速浏览以学习 partial sort 的应用，但无需深入分析设计决策，可重点关注排序边界条件的处理。

performancebugfixjit-kernel

#19395 MFU metrics in Prometheus

原始 PR · 作者 aramasethu · 合并时间 2026-03-30 14:40

功能重要性 6.00 洞察度 6.00

为SGLang服务器添加可选的MFU相关Prometheus指标，以提供GPU性能估计。

建议工程师精读scheduler_metrics_mixin.py中的估计逻辑和metrics_collector.py中的计数器实现，关注门控设计和性能权衡；技术管理者可参考此PR以可选方式扩展可观测性功能的策略。

featuredocumentationtest

#21625 [CI] [FlashInfer v0.6.7] Use offline quantized checkpoint for MXFP8 Gemm tests

原始 PR · 作者 zianglih · 合并时间 2026-03-30 13:47

测试重要性 5.00 洞察度 4.00

改用离线量化检查点提升MXFP8 Gemm CI测试稳定性。

建议快速审查并合并，以解决CI不稳定性问题。值得关注的设计决策：使用离线量化检查点避免在线量化路径的不稳定性，这是一种实用解决方案，但未来应考虑优化在线量化以提高通用性。同时，关注Triton测试的性能优化进展。

citestquant

#21659 [Doc] Update tips for developer new-comers

原始 PR · 作者 Fridge003 · 合并时间 2026-03-30 13:40

文档重要性 2.00 洞察度 2.00

更新贡献指南，添加新人入门资源链接，包括Mini-SGLang和GTC-2024训练实验室。

此PR值得新贡献者或文档维护者快速浏览以了解新增资源，但无需深入代码分析；关注审核中的一致性改进和错误纠正即可。

documentation

#18461 [Intel GPU] Enable DeepSeek R1 inference on XPU

原始 PR · 作者 polisettyvarma · 合并时间 2026-03-30 13:36

功能重要性 6.00 洞察度 4.00

为Intel GPU（XPU）启用DeepSeek R1模型的FP8精度推理支持。

该PR值得精读，关注设备抽象的设计决策，如使用get_device()和torch.get_device_module()实现多设备兼容的模式。建议工程师学习如何优雅处理硬件差异，并注意review中提到的潜在风险点，特别是测试覆盖和设备特定逻辑的适配。

featuredeepseekquant

第 326 / 358 页 · 共 2863 条

上一页 1 … 324 325 326 327 328 … 358 下一页