修复 UnifiedRadixCache 测试的稳定性问题
可直接合并,属于低风险 CI 稳定性修复。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 UnifiedRadixCache 测试的稳定性问题
可直接合并,属于低风险 CI 稳定性修复。
修复 SWAKVPool 模型确定性推理的 CUDA 非法内存访问
该 PR 值得精读。它展示了如何诊断由索引空间不一致导致的内存越界问题,并利用缓存设计(`swa_loc`)优化性能。对于涉及自定义 KV 池(如 SWAKVPool)及统一注意力内核的开发者,此修复具有重要参考价值。
暴露 SWA 和 Mamba 混合缓存容量指标
该 PR 属于小范围增强,逻辑清晰,变更量小,适合快速阅读以了解 SGLang 缓存指标扩展模式。
优化 Helios 融合归一化调制,消除冗余 FP32 转换
该 PR 是一次典型的 kernel fusion 性能优化,设计简洁且有效。建议:1)确认 `LayerNorm` 构造时显式传入 `bias=True` 以避免未来歧义;2)考虑添加数值一致性测试(如 PSNR/SSIM)以量化验证图像质量无退化。整体上值得合并。
为 HunyuanVideo 添加 ModelOpt FP8 量化支持
适合有意在 SGLang 中集成新量化模型的工程师阅读,重点关注 `build_modelopt_fp8_transformer.py` 中的命名映射机制和 `ReplicatedLinear` 的泛化设计。
原始 PR · 作者 billishyahao · 合并时间 2026-05-05 16:54
修复 EAGLE SpecV2 + TBO 下 seq_lens_cpu 空指针问题
值得快速合入,修复明确,影响范围小。可作为 AMD 平台 SpecV2 兼容性修复的参考模式。
修复 PyPI 发布工作流,支持手动调度和 manylinux 打包
该 PR 值得合并,解决了 PyPI 发布流程中的关键问题。建议开发者在手动发布时注意输入正确的版本号。
新增 LTX2 融合 Triton 内核,BF16 路径性能提升约 1%
值得阅读,尤其是学习如何在现有 PyTorch 操作中安全插入融合内核的策略。该 PR 展示了保证数值一致性的方法(匹配 BF16 舍入顺序)和条件回退设计,可作为后续类似优化的参考。
参与讨论