#24369 [Docker] fix: install nixl stub alongside nixl-cuXX binary
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-05 03:46
Docker 中恢复 nixl stub 包安装
该 PR 修复了一个关键的回归问题,建议精读以了解 nixl 包的结构和安装最佳实践。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-05 03:46
Docker 中恢复 nixl stub 包安装
该 PR 修复了一个关键的回归问题,建议精读以了解 nixl 包的结构和安装最佳实践。
修复流式响应中 cached_tokens_details 在 sglext 中缺失的问题
值得精读,因为展示了如何修复流式响应中字段缺失的常见模式,以及如何重构共享逻辑。设计决策:将辅助函数提取到 utils.py 以便复用,以及将 routed_experts 和 cached_tokens_details 合并到一个 sglext 块中。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-05 02:41
排除不稳定的 h20 阶段引发级联失败
此 PR 是小幅 CI 可靠性改进,值得合并。建议关注 h20 运行器 GPU 残留的根本原因,并考虑更长期的修复。
优化混合SWA预fill及容量检查
值得合并的微小修复,逻辑清晰。建议在合并前添加针对混合 SWA 及非 PP 场景下 `get_num_allocatable_reqs` 行为的单元测试,尤其是边界 case(token pool 接近耗尽)。
缓存 FlashInfer 自动调优配置
值得精读。该 PR 展示了如何通过简单的缓存机制显著优化模型初始化性能,设计上考虑了多维度缓存键和并发安全,是性能优化的良好范例。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-05 01:27
为 SMG 添加端到端 K8s 集成测试并接入 CI
值得精读。本 PR 展示了如何为网关组件构建端到端集成测试,尤其是 fake worker 的设计、基于 UID 的驱逐验证以及 CI 轻量构建策略,对类似组件的测试设计有参考价值。
融合 kernel 与 PCG 提升 Gemma4 预填充性能
建议精读 `gemma4_fused_ops.py` 中的 kernel 融合策略(减少 launch overhead 的典型模式)和 `gemma4_mm.py` 中 `model` 属性与 `__setattr__` 的设计(在不破坏 state_dict 前提下兼容 PCG 框架),这些模式对类似优化有借鉴价值。
直连 all-to-all 替代功能集合,提升 diffusion 去噪速度约 18%
值得精读,理解 PyTorch 函数式集合与直接集合的性能差异。建议接受 reviewer 关于显式导入 `torch.distributed` 的建议以提高代码健壮性。
参与讨论