Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-25
性能优化 重要性 6.62 洞察度 5.00

跳过 TRTLLM MLA 中不必要的 kv-indices 计算

推荐合并。该 PR 是一个简洁、低风险的性能优化,通过消除冗余的 GPU kernel 调用实现了约 2.5% 的吞吐提升,且不影响正确性。变更加上 benchmark 数据清晰有说服力,值得精读其设计思路。

#25874 [CPU] add faster KV-cache writes

原始 PR · 作者 mingfeima · 合并时间 2026-05-25 10:28

性能优化 重要性 8.10 洞察度 5.00

CPU KV-cache 写入使用 OpenMP + AVX512 专用 kernel 加速

值得精读,尤其是 CPU 加速的通用模式:将 ATen 原生接口与 OpenMP 结合,并遵循库注册流程。可作为类似优化的参考。

功能 重要性 6.89 洞察度 5.00

调度器复用预计算的 padd 输入 ids,避免重复 padd 计算

值得精读,展示了如何通过“尝试-回退”模式在现有流程中插入预计算优化,设计简洁且侵入性低。团队成员可关注 `_try_apply_padded_mm_input_ids` 的边界条件处理及后续是否需补充测试。

#25856 Fix attr err

原始 PR · 作者 hanwlax · 合并时间 2026-05-25 10:26

缺陷修复 重要性 4.55 洞察度 2.00

修复 Qwen3VLMoe encoder_only 模式属性错误

本次变更是典型的防御性编程修复,变更极小,逻辑清晰,可以快速合入。

缺陷修复 重要性 5.90 洞察度 6.00

修复 EAGLE v2 非 CUDA Graph 路径验证元数据初始化顺序

值得精读。该 PR 虽然改动很小(两个文件共 7 行净增),但针对的是一个关键初始化和时序问题,并且清楚说明了背后设计原则:元数据必须在实际 forward 使用的 batch 形状确定之后才初始化。建议阅读时结合 `model_runner.forward_idle` 中第 3104-3108 行(PR 提及的类似模式)一起理解,可以加深对 sglang 中 CUDA Graph 和非 CUDA Graph 路径差异管理的认识。

缺陷修复 重要性 7.26 洞察度 5.00

修复 Qwen-VL 多模态 grid 收集只取最后一项

该 PR 属于重要的 bug 修复,特别是对多图或视频帧场景。建议仔细审阅 `_concat_mm_item_grid` 中 `_as_grid_batch` 的处理逻辑,并确认 CI Extra 失败是否与此变更相关。另外,Review 中关于维度一致性的建议值得参考,虽未采纳,但可在后续测试中关注。

参与讨论