Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-05-05

#24421 [UnifiedRadixTree]: Fix flaky ci

原始 PR · 作者 hzh0425 · 合并时间 2026-05-05 20:22

缺陷修复 重要性 3.81 洞察度 2.00

修复 UnifiedRadixCache 测试的稳定性问题

可直接合并,属于低风险 CI 稳定性修复。

缺陷修复 重要性 7.24 洞察度 6.00

修复 SWAKVPool 模型确定性推理的 CUDA 非法内存访问

该 PR 值得精读。它展示了如何诊断由索引空间不一致导致的内存越界问题,并利用缓存设计(`swa_loc`)优化性能。对于涉及自定义 KV 池(如 SWAKVPool)及统一注意力内核的开发者,此修复具有重要参考价值。

#24396 [sgl] expose swa and mamba cache metrics

原始 PR · 作者 bixue2010 · 合并时间 2026-05-05 20:19

功能 重要性 5.84 洞察度 4.00

暴露 SWA 和 Mamba 混合缓存容量指标

该 PR 属于小范围增强,逻辑清晰,变更量小,适合快速阅读以了解 SGLang 缓存指标扩展模式。

#24059 [codex] Optimize Helios fused norm modulation

原始 PR · 作者 BBuf · 合并时间 2026-05-05 19:28

性能优化 重要性 6.11 洞察度 5.00

优化 Helios 融合归一化调制,消除冗余 FP32 转换

该 PR 是一次典型的 kernel fusion 性能优化,设计简洁且有效。建议:1)确认 `LayerNorm` 构造时显式传入 `bias=True` 以避免未来歧义;2)考虑添加数值一致性测试(如 PSNR/SSIM)以量化验证图像质量无退化。整体上值得合并。

#23199 Add HunyuanVideo ModelOpt FP8 diffusion support

原始 PR · 作者 BBuf · 合并时间 2026-05-05 19:27

功能 重要性 8.53 洞察度 5.00

为 HunyuanVideo 添加 ModelOpt FP8 量化支持

适合有意在 SGLang 中集成新量化模型的工程师阅读,重点关注 `build_modelopt_fp8_transformer.py` 中的命名映射机制和 `ReplicatedLinear` 的泛化设计。

缺陷修复 重要性 5.49 洞察度 4.00

修复 EAGLE SpecV2 + TBO 下 seq_lens_cpu 空指针问题

值得快速合入,修复明确,影响范围小。可作为 AMD 平台 SpecV2 兼容性修复的参考模式。

#24417 [Fix] Fix pypi release workflow

原始 PR · 作者 Fridge003 · 合并时间 2026-05-05 16:21

基础设施 重要性 4.81 洞察度 4.00

修复 PyPI 发布工作流,支持手动调度和 manylinux 打包

该 PR 值得合并,解决了 PyPI 发布流程中的关键问题。建议开发者在手动发布时注意输入正确的版本号。

#24411 [diffusion] Fuse LTX2 split rotary embedding

原始 PR · 作者 mickqian · 合并时间 2026-05-05 16:07

性能优化 重要性 7.58 洞察度 6.00

新增 LTX2 融合 Triton 内核,BF16 路径性能提升约 1%

值得阅读,尤其是学习如何在现有 PyTorch 操作中安全插入融合内核的策略。该 PR 展示了保证数值一致性的方法(匹配 BF16 舍入顺序)和条件回退设计,可作为后续类似优化的参考。

参与讨论