Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-30

#26738 [core] Fix crashes on the `gpu_only` spec_v2 path

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-30 10:12

缺陷修复重要性 6.44 洞察度 4.00

修复 spec_v2 gpu_only 路径的 None 崩溃与索引越界

建议阅读本文涉及的 None 安全处理模式，尤其是 getattr 默认值和上界预分配（ub-allocate）的方法，可用于未来类似优化。提交历史清晰，可追溯每个修复步骤。

bugfixspeculative-decodingattention

#26753 [Bug] ngram verify: keep `batch.seq_lens_sum` in sync after accept

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-30 09:00

缺陷修复重要性 5.05 洞察度 4.00

修复 ngram verify 后 seq_lens_sum 不同步导致 CUDA 越界

该 PR 是典型的隐蔽性 bug 修复，值得阅读以理解注意力后端对 seq_lens_sum 的依赖关系。对于关注推测解码稳定性的人员，建议合并此修复。

bugfixspeculative-decodingattention

#20876 [lora] More efficient pinned memory

原始 PR · 作者 erikwijmans · 合并时间 2026-05-30 08:05

性能优化重要性 7.79 洞察度 5.00

优化 LoRA pinned 内存：按 rank 切片且流水线化传输

本 PR 是 LoRA 加载路径的一次重要优化，设计简洁高效，值得精读。重点理解流水线 pinning 的实现方式（`_get_maybe_cached_weight_for_transfer` 的生成器模式）以及 dtype 转换策略（`copy_weight_into_buffer` 的惰性设备转换）。

loraperformancerefactor

#23993 [attention] Fallback to Triton merge_state when FlashInfer hits CUDA thread limit

原始 PR · 作者 brucechanglongxu · 合并时间 2026-05-30 07:30

缺陷修复重要性 6.99 洞察度 4.00

FlashInfer MergeState 大 num_heads 回退到 Triton

建议合入。PR 定位精准、改动极简、风险低，属于典型的防御性兼容修复。值得关注的设计决策是：通过简单 inline 计算镜像 FlashInfer 内部 vec_size 选择来推导安全上限，避免引入额外依赖或复杂启动配置。后续可考虑评估 `merge_state_v2` 是否在性能上更优。

bugfixattentionperformance

#26744 [RL] Forward Kimi K2.5 weight hooks to language model

原始 PR · 作者 ByronHsu · 合并时间 2026-05-30 06:08

功能重要性 7.68 洞察度 5.00

Kimi K2.5 模型权重钩子转发

建议精读，这是一个典型的模型包装类设计问题，展示了如何在多模态模型中正确转发内部组件的方法以保持接口统一。值得 RL 训练和模型开发团队关注。

featuredeepseekkv-cache

#26583 [Utils] Support configure log level at runtime

原始 PR · 作者 stepinto · 合并时间 2026-05-30 05:49

功能重要性 6.51 洞察度 5.00

运行时动态配置日志级别

值得阅读，展示了一种轻量的跨进程运行时配置模式。对于生产部署，建议在 HTTP 入口层增加服务端输入校验，避免仅依赖 CLI 约束。

featureobservabilitydocumentation

#26468 [Model] Add Qwen3-MoE MTP

原始 PR · 作者 ByronHsu · 合并时间 2026-05-30 05:31

功能重要性 8.58 洞察度 6.00

为 Qwen3-MoE 添加 MTP 推测解码草稿模型

该 PR 实现了必要的功能扩展，设计上复用父类 `load_weights` 的思路值得学习。但 review 中提出的两个问题（权重重命名逻辑和 super.init 跳过）未修复即合并，存在一定风险。建议读者关注未来是否有后续修复 PR，并在自己的部署中注意检查权重加载正确性。

featurespeculative-decodingmoe

#26348 Optimize get load calls (/v1/loads) using shared-memory load snapshots

原始 PR · 作者 merrymercy · 合并时间 2026-05-30 04:40

性能优化重要性 9.18 洞察度 7.00

使用共享内存快照优化 /v1/loads 性能，延迟降低 10-100 倍

建议团队精读 `load_snapshot.py` 中双后端的设计模式（策略模式选择），以及 `refresh_load_budget` 中的 20ms 节流逻辑，这是性能与准确性权衡的典型实践。该 PR 为未来扩展实时监控和负载均衡提供了基础架构。

performanceschedulingrefactor

第 46 / 357 页 · 共 2850 条

上一页 1 … 44 45 46 47 48 … 357 下一页