Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-29

#26590 [BugFix] preserve cached token details in multi-tokenizer output

原始 PR · 作者 cquil11 · 合并时间 2026-05-29 04:31

缺陷修复重要性 6.18 洞察度 3.00

修复多 tokenizer 路径丢失缓存详情

**值得精读**：变更虽小，但展示了多 tokenizer 路径中字段转发的模式，是维护 metrics 一致性的关键修复。可关注同类字段是否还有遗漏。

bugfixhicacheobservability

#26600 Revert "[CI] FA3: ascending cuda-graph capture to avoid varlen workspace IMA (#26532) (#26550)"

原始 PR · 作者 mmangkad · 合并时间 2026-05-29 04:17

缺陷修复重要性 7.25 洞察度 4.00

回退 FA3 升序 CUDA Graph 捕获顺序

该 PR 是紧急回退，值得精读以了解 CUDA Graph 捕获顺序与内存分配的关系。关注后续是否会有更好的修复方案（例如限制捕获批次大小或优化内存池）。

bugfixciattention

#26601 chore: add @pyc96 as codeowner for gemma4 files

原始 PR · 作者 kpham-sgl · 合并时间 2026-05-29 03:37

基础设施重要性 2.87 洞察度 1.00

新增 @pyc96 为 Gemma4 文件代码所有者

该 PR 为纯流程性变更，无需精读。

infra

#26302 [UnifiedTree] gate load back pre-evict on full-attn availability only

原始 PR · 作者 vladnosiv · 合并时间 2026-05-29 00:30

缺陷修复重要性 6.18 洞察度 5.00

限制load-back预驱逐仅使用full attention pool容量

值得精读，尤其是其设计权衡（避免污染基础接口的哲学）。建议 review 关注 full_available_size 在 SWA 和 HiSparse 分配器中的实现是否完整，以及未来是否有其他路径需要类似修复。

bugfixhicachekv-cache

2026-05-28

#26402 [5/N] Quantization Refactor: GPTQ schemes and kernel split

原始 PR · 作者 Alisehen · 合并时间 2026-05-28 22:15

重构重要性 9.18 洞察度 6.00

GPTQ量化重构：按scheme/kernel拆分为独立模块

值得精读，尤其是`scheme`/`kernel`分离的设计模式，以及如何通过工厂方法统一不同后端的量化逻辑。对于从事量化或硬件抽象层的工程师，这是一个很好的参考案例。PR讨论中关于移除`is_xxx`检查的要点也体现了架构整洁性追求。

refactorquantnpu

#26318 [diffusion][jit_kernel] perf: varlen FA fast path for USPAttention masked branch

原始 PR · 作者 mispa-ms · 合并时间 2026-05-28 21:26

性能优化重要性 9.18 洞察度 7.00

Varlen FA 加速 USPAttention masked 路径，Qwen-Image 推理提速 15%+

该 PR 值得精读，尤其是对从事 Transformer inference 性能优化的工程师。核心设计模式（Triton 融合减少 launch、metadata 预计算复用、显式契约确保兼容性）具有很高的参考价值。新增的测试用例可作为 Triton 内核测试的范例。建议关注后续是否将该模式推广到其他 attention 变体（如 cross-attention、DPO 等）。

performancediffusionjit-kernel

#26437 [MUSA] Fix startup with patched torchada

原始 PR · 作者 popsiclexu · 合并时间 2026-05-28 20:57

缺陷修复重要性 5.20 洞察度 3.00

修复 MUSA 启动时 torchada 兼容性问题

建议快速合并，属于紧急平台兼容性修复。

bugfixmthreadsdependencies

#26430 Fix GemmaRMSNorm gemma_weight buffer storage for Qwen3.5

原始 PR · 作者 guapisolo · 合并时间 2026-05-28 18:42

缺陷修复重要性 5.60 洞察度 5.00

修复 GemmaRMSNorm buffer 存储导致 CUDA Graph 失效

这是一个值得精读的微型实例：演示了 PyTorch 中 `=` 赋值与原地操作在 CUDA Graph 上下文下的关键区别。团队可借鉴此模式审查其他存在 `buffer = expr` 赋值且参与 CUDA Graph 捕获的模块。

bugfixcuda-graphattention

第 55 / 357 页 · 共 2850 条

上一页 1 … 53 54 55 56 57 … 357 下一页