Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-25

#26241 [perf][spec decoding] Skip common_template in TRTLLMMLAMultiStepDraftBackend init

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-25 12:36

性能优化重要性 6.62 洞察度 5.00

跳过 TRTLLM MLA 中不必要的 kv-indices 计算

推荐合并。该 PR 是一个简洁、低风险的性能优化，通过消除冗余的 GPU kernel 调用实现了约 2.5% 的吞吐提升，且不影响正确性。变更加上 benchmark 数据清晰有说服力，值得精读其设计思路。

performancespeculative-decodingblackwell

#26177 [Bug Fix][HiCache] TreeNode.get_prefix_hash_values @lru_cache can return mutated list

原始 PR · 作者 vuuihc · 合并时间 2026-05-25 11:15

缺陷修复重要性 5.99 洞察度 5.00

修复 HiCache 缓存 list 被下游就地修改的 bug

建议合并。该 PR 修复了一个典型的可变对象缓存 alias bug，修改简洁正确，测试覆盖充分。值得精读以理解 `@lru_cache` 对可变返回值的安全使用要点。

bugfixkv-cachehicache

#25874 [CPU] add faster KV-cache writes

原始 PR · 作者 mingfeima · 合并时间 2026-05-25 10:28

性能优化重要性 8.10 洞察度 5.00

CPU KV-cache 写入使用 OpenMP + AVX512 专用 kernel 加速

值得精读，尤其是 CPU 加速的通用模式：将 ATen 原生接口与 OpenMP 结合，并遵循库注册流程。可作为类似优化的参考。

cpuperformancesgl-kernel

#26097 [VLM] try to reuse precomputed padded input ids in scheduler instead of padding

原始 PR · 作者 mickqian · 合并时间 2026-05-25 10:27

功能重要性 6.89 洞察度 5.00

调度器复用预计算的 padd 输入 ids，避免重复 padd 计算

值得精读，展示了如何通过“尝试-回退”模式在现有流程中插入预计算优化，设计简洁且侵入性低。团队成员可关注 `_try_apply_padded_mm_input_ids` 的边界条件处理及后续是否需补充测试。

multimodalperformancefeature

#25856 Fix attr err

原始 PR · 作者 hanwlax · 合并时间 2026-05-25 10:26

缺陷修复重要性 4.55 洞察度 2.00

修复 Qwen3VLMoe encoder_only 模式属性错误

本次变更是典型的防御性编程修复，变更极小，逻辑清晰，可以快速合入。

bugfixmultimodaldeepseek

#26244 [Spec] fix EAGLE v2 verify metadata init order on non-cuda-graph path

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-25 09:49

缺陷修复重要性 5.90 洞察度 6.00

修复 EAGLE v2 非 CUDA Graph 路径验证元数据初始化顺序

值得精读。该 PR 虽然改动很小（两个文件共 7 行净增），但针对的是一个关键初始化和时序问题，并且清楚说明了背后设计原则：元数据必须在实际 forward 使用的 batch 形状确定之后才初始化。建议阅读时结合 `model_runner.forward_idle` 中第 3104-3108 行（PR 提及的类似模式）一起理解，可以加深对 sglang 中 CUDA Graph 和非 CUDA Graph 路径差异管理的认识。

bugfixspeculative-decodingdeepseek

#26149 [VLM] feat: accept grid_thws from preprocessed metadata for kimi

原始 PR · 作者 mickqian · 合并时间 2026-05-25 09:10

功能重要性 5.91 洞察度 4.00

支持 Kimi 图像预计算 grid_thws 元数据

该 PR 改动很小，属于对已有预处理管道的适配。建议关注后续是否有统一的多模态元数据方案。

multimodalfeaturerefactor

#26094 [VLM] fix: fix only the grids from last split mm item is collected for qwen-vl

原始 PR · 作者 mickqian · 合并时间 2026-05-25 09:09

缺陷修复重要性 7.26 洞察度 5.00

修复 Qwen-VL 多模态 grid 收集只取最后一项

该 PR 属于重要的 bug 修复，特别是对多图或视频帧场景。建议仔细审阅 `_concat_mm_item_grid` 中 `_as_grid_batch` 的处理逻辑，并确认 CI Extra 失败是否与此变更相关。另外，Review 中关于维度一致性的建议值得参考，虽未采纳，但可在后续测试中关注。

bugfixmultimodalrefactor

第 73 / 357 页 · 共 2850 条

上一页 1 … 71 72 73 74 75 … 357 下一页