Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11

PR 列表

更多筛选
2026-05-27
性能优化 重要性 8.72 洞察度 6.00

替换Pydantic逐元素验证为C循环,API性能提升25倍

值得精读以了解如何利用 Python `array` 模块和 Pydantic `PlainValidator` 实现高性能类型验证。其微基准测试方法也可推广到其他热点路径的优化评估。

测试 重要性 7.36 洞察度 3.00

为AMD MI355X添加GLM-5.1-MXFP4 TP=2 GSM8K准确率门控测试

该PR结构清晰、用途明确,值得在AMD CI相关维护者中了解。其中 `_raise_nofile_limit` 和 `_get_model_path` 是硬件测试中常见的实用工具,可复用于未来测试。建议关注其CI运行稳定性,并根据实际硬件资源调整 `num_questions` 和 `parallel` 等参数。

测试 重要性 7.44 洞察度 2.00

为 AMD MI35x 添加 DSR1-0528 FP8 HiCache GSM8K CI 测试

建议合并,该 PR 填补了关键的回归测试空白,且本地验证充分。未来可考虑增加更多数据集或不同 HiCache 配置的测试,以进一步覆盖边缘情况。

#26463 refresh resolve_seq_lens_cpu comments

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-27 15:51

其他 重要性 4.38 洞察度 4.00

仅更新注释和文档,无行为变更

虽然是纯注释变更,但其中的设计解释(为什么 D2H 用独立流)以及 FIXME(统一索引)值得关注,反映了架构决策和未来演进方向。

功能 重要性 9.18 洞察度 7.00

将 diffusion serve warmup 从请求预热改为服务器预热,并修复多模型边缘情况

**值得精读**。该 PR 展示了服务端预热的设计权衡:如何在不影响用户请求的前提下确保缓存就绪。`should_include_warmup_image` 的策略和 `get_model_sampling_defaults` 的回退机制是值得关注的模式。同时修复了多个模型特定的兼容问题,是理解 sglang diffusion 架构的好入口。

缺陷修复 重要性 6.55 洞察度 8.00

修复重叠调度数据竞争,解除前向占用损失

核心逻辑改动精炼,设计巧妙(用私有流避免屏障串行化),值得深入阅读。但 AMD 和 GB 回归表明跨平台适配不充分,建议后续添加数据竞争测试和跨平台性能基准后再逐步推广。

#23837 Add Ling_2_6

原始 PR · 作者 ant-yy · 合并时间 2026-05-27 14:57

功能 重要性 7.96 洞察度 6.00

添加 Ling-2.6 百灵模型支持及推理优化

建议重点关注 `bailing_moe_linear.py` 中的异步 CUDA stream 设计,该模式可推广至其他 MoE 模型;`handle_max_mamba_cache` 的联合求解公式也值得参考。但需督促补充单元测试,并确认 `ispobock` 的 double check 已解决。

参与讨论