Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11

PR 列表

更多筛选
2026-05-05
性能优化 重要性 6.87 洞察度 6.00

明确CUDA cache清理时机,移除stage边界隐式清理

推荐阅读,尤其是以下设计决策: - 将隐式副作用(debug日志中的`empty_cache`)显式化,分离观测和清理职责,是良好的工程实践。 - 只在`memory_intensive`组件释放且满足特定条件(CUDA存储释放或LayerwiseOffloadStrategy)时清理,避免频繁`empty_cache`。 - 性能基线的同步更新策略以及为有波动的stage设置动态容差的方法值得借鉴。

#24421 [UnifiedRadixTree]: Fix flaky ci

原始 PR · 作者 hzh0425 · 合并时间 2026-05-05 20:22

缺陷修复 重要性 3.81 洞察度 2.00

修复 UnifiedRadixCache 测试的稳定性问题

可直接合并,属于低风险 CI 稳定性修复。

缺陷修复 重要性 7.24 洞察度 6.00

修复 SWAKVPool 模型确定性推理的 CUDA 非法内存访问

该 PR 值得精读。它展示了如何诊断由索引空间不一致导致的内存越界问题,并利用缓存设计(`swa_loc`)优化性能。对于涉及自定义 KV 池(如 SWAKVPool)及统一注意力内核的开发者,此修复具有重要参考价值。

#24396 [sgl] expose swa and mamba cache metrics

原始 PR · 作者 bixue2010 · 合并时间 2026-05-05 20:19

功能 重要性 5.84 洞察度 4.00

暴露 SWA 和 Mamba 混合缓存容量指标

该 PR 属于小范围增强,逻辑清晰,变更量小,适合快速阅读以了解 SGLang 缓存指标扩展模式。

#24059 [codex] Optimize Helios fused norm modulation

原始 PR · 作者 BBuf · 合并时间 2026-05-05 19:28

性能优化 重要性 6.11 洞察度 5.00

优化 Helios 融合归一化调制,消除冗余 FP32 转换

该 PR 是一次典型的 kernel fusion 性能优化,设计简洁且有效。建议:1)确认 `LayerNorm` 构造时显式传入 `bias=True` 以避免未来歧义;2)考虑添加数值一致性测试(如 PSNR/SSIM)以量化验证图像质量无退化。整体上值得合并。

#23199 Add HunyuanVideo ModelOpt FP8 diffusion support

原始 PR · 作者 BBuf · 合并时间 2026-05-05 19:27

功能 重要性 8.53 洞察度 5.00

为 HunyuanVideo 添加 ModelOpt FP8 量化支持

适合有意在 SGLang 中集成新量化模型的工程师阅读,重点关注 `build_modelopt_fp8_transformer.py` 中的命名映射机制和 `ReplicatedLinear` 的泛化设计。

缺陷修复 重要性 5.49 洞察度 4.00

修复 EAGLE SpecV2 + TBO 下 seq_lens_cpu 空指针问题

值得快速合入,修复明确,影响范围小。可作为 AMD 平台 SpecV2 兼容性修复的参考模式。

参与讨论