Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-05

#24421 [UnifiedRadixTree]: Fix flaky ci

原始 PR · 作者 hzh0425 · 合并时间 2026-05-05 20:22

缺陷修复重要性 3.81 洞察度 2.00

修复 UnifiedRadixCache 测试的稳定性问题

可直接合并，属于低风险 CI 稳定性修复。

bugfixtestrun-ci

#24395 Fix deterministic inference on models with `SWAKVPool`

原始 PR · 作者 kpham-sgl · 合并时间 2026-05-05 20:20

缺陷修复重要性 7.24 洞察度 6.00

修复 SWAKVPool 模型确定性推理的 CUDA 非法内存访问

该 PR 值得精读。它展示了如何诊断由索引空间不一致导致的内存越界问题，并利用缓存设计（`swa_loc`）优化性能。对于涉及自定义 KV 池（如 SWAKVPool）及统一注意力内核的开发者，此修复具有重要参考价值。

bugfixtestkv-cache

#24396 [sgl] expose swa and mamba cache metrics

原始 PR · 作者 bixue2010 · 合并时间 2026-05-05 20:19

功能重要性 5.84 洞察度 4.00

暴露 SWA 和 Mamba 混合缓存容量指标

该 PR 属于小范围增强，逻辑清晰，变更量小，适合快速阅读以了解 SGLang 缓存指标扩展模式。

observabilitykv-cachefeature

#24059 [codex] Optimize Helios fused norm modulation

原始 PR · 作者 BBuf · 合并时间 2026-05-05 19:28

性能优化重要性 6.11 洞察度 5.00

优化 Helios 融合归一化调制，消除冗余 FP32 转换

该 PR 是一次典型的 kernel fusion 性能优化，设计简洁且有效。建议：1）确认 `LayerNorm` 构造时显式传入 `bias=True` 以避免未来歧义；2）考虑添加数值一致性测试（如 PSNR/SSIM）以量化验证图像质量无退化。整体上值得合并。

diffusionperformancerefactor

#23199 Add HunyuanVideo ModelOpt FP8 diffusion support

原始 PR · 作者 BBuf · 合并时间 2026-05-05 19:27

功能重要性 8.53 洞察度 5.00

为 HunyuanVideo 添加 ModelOpt FP8 量化支持

适合有意在 SGLang 中集成新量化模型的工程师阅读，重点关注 `build_modelopt_fp8_transformer.py` 中的命名映射机制和 `ReplicatedLinear` 的泛化设计。

diffusionquantfeature

#24319 [AMD] fix tbo specv2 seq_lens_cpu NoneType error

原始 PR · 作者 billishyahao · 合并时间 2026-05-05 16:54

缺陷修复重要性 5.49 洞察度 4.00

修复 EAGLE SpecV2 + TBO 下 seq_lens_cpu 空指针问题

值得快速合入，修复明确，影响范围小。可作为 AMD 平台 SpecV2 兼容性修复的参考模式。

amdbugfixspeculative-decoding

#24417 [Fix] Fix pypi release workflow

原始 PR · 作者 Fridge003 · 合并时间 2026-05-05 16:21

基础设施重要性 4.81 洞察度 4.00

修复 PyPI 发布工作流，支持手动调度和 manylinux 打包

该 PR 值得合并，解决了 PyPI 发布流程中的关键问题。建议开发者在手动发布时注意输入正确的版本号。

cipypi

#24411 [diffusion] Fuse LTX2 split rotary embedding

原始 PR · 作者 mickqian · 合并时间 2026-05-05 16:07

性能优化重要性 7.58 洞察度 6.00

新增 LTX2 融合 Triton 内核，BF16 路径性能提升约 1%

值得阅读，尤其是学习如何在现有 PyTorch 操作中安全插入融合内核的策略。该 PR 展示了保证数值一致性的方法（匹配 BF16 舍入顺序）和条件回退设计，可作为后续类似优化的参考。

diffusionjit-kernelperformance

第 173 / 357 页 · 共 2850 条

上一页 1 … 171 172 173 174 175 … 357 下一页