Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-05

#24397 [diffusion] chore: clean CUDA cache only at explicit release points

原始 PR · 作者 mickqian · 合并时间 2026-05-05 22:30

性能优化重要性 6.87 洞察度 6.00

明确CUDA cache清理时机，移除stage边界隐式清理

推荐阅读，尤其是以下设计决策： - 将隐式副作用（debug日志中的`empty_cache`）显式化，分离观测和清理职责，是良好的工程实践。 - 只在`memory_intensive`组件释放且满足特定条件（CUDA存储释放或LayerwiseOffloadStrategy）时清理，避免频繁`empty_cache`。 - 性能基线的同步更新策略以及为有波动的stage设置动态容差的方法值得借鉴。

diffusionperformancetest

#24356 [Intel GPU] Enable DeepSeek V3.2 inference on XPU

原始 PR · 作者 polisettyvarma · 合并时间 2026-05-05 20:47

功能重要性 5.60 洞察度 3.00

XPU 推理 DeepSeek V3.2

可快速合并，变更简洁直接。建议未来添加 XPU 特定测试，并在 `forward_xpu` 中补充明确的错误消息（如 reviewer 所提）。

intelxpufeature

#24421 [UnifiedRadixTree]: Fix flaky ci

原始 PR · 作者 hzh0425 · 合并时间 2026-05-05 20:22

缺陷修复重要性 3.81 洞察度 2.00

修复 UnifiedRadixCache 测试的稳定性问题

可直接合并，属于低风险 CI 稳定性修复。

bugfixtestrun-ci

#24395 Fix deterministic inference on models with `SWAKVPool`

原始 PR · 作者 kpham-sgl · 合并时间 2026-05-05 20:20

缺陷修复重要性 7.24 洞察度 6.00

修复 SWAKVPool 模型确定性推理的 CUDA 非法内存访问

该 PR 值得精读。它展示了如何诊断由索引空间不一致导致的内存越界问题，并利用缓存设计（`swa_loc`）优化性能。对于涉及自定义 KV 池（如 SWAKVPool）及统一注意力内核的开发者，此修复具有重要参考价值。

bugfixtestkv-cache

#24396 [sgl] expose swa and mamba cache metrics

原始 PR · 作者 bixue2010 · 合并时间 2026-05-05 20:19

功能重要性 5.84 洞察度 4.00

暴露 SWA 和 Mamba 混合缓存容量指标

该 PR 属于小范围增强，逻辑清晰，变更量小，适合快速阅读以了解 SGLang 缓存指标扩展模式。

observabilitykv-cachefeature

#24059 [codex] Optimize Helios fused norm modulation

原始 PR · 作者 BBuf · 合并时间 2026-05-05 19:28

性能优化重要性 6.11 洞察度 5.00

优化 Helios 融合归一化调制，消除冗余 FP32 转换

该 PR 是一次典型的 kernel fusion 性能优化，设计简洁且有效。建议：1）确认 `LayerNorm` 构造时显式传入 `bias=True` 以避免未来歧义；2）考虑添加数值一致性测试（如 PSNR/SSIM）以量化验证图像质量无退化。整体上值得合并。

diffusionperformancerefactor

#23199 Add HunyuanVideo ModelOpt FP8 diffusion support

原始 PR · 作者 BBuf · 合并时间 2026-05-05 19:27

功能重要性 8.53 洞察度 5.00

为 HunyuanVideo 添加 ModelOpt FP8 量化支持

适合有意在 SGLang 中集成新量化模型的工程师阅读，重点关注 `build_modelopt_fp8_transformer.py` 中的命名映射机制和 `ReplicatedLinear` 的泛化设计。

diffusionquantfeature

#24319 [AMD] fix tbo specv2 seq_lens_cpu NoneType error

原始 PR · 作者 billishyahao · 合并时间 2026-05-05 16:54

缺陷修复重要性 5.49 洞察度 4.00

修复 EAGLE SpecV2 + TBO 下 seq_lens_cpu 空指针问题

值得快速合入，修复明确，影响范围小。可作为 AMD 平台 SpecV2 兼容性修复的参考模式。

amdbugfixspeculative-decoding

第 172 / 356 页 · 共 2844 条

上一页 1 … 170 171 172 173 174 … 356 下一页