压制 health-check 竞态条件日志噪音
该 PR 值得合并,是一个小但实用的改进,减少运维噪音。
SGLang is a high-performance serving framework for large language models and multimodal models.
压制 health-check 竞态条件日志噪音
该 PR 值得合并,是一个小但实用的改进,减少运维噪音。
原始 PR · 作者 whybeyoung · 合并时间 2026-05-06 11:18
HiSparse 支持 FP8 KV cache 后端路由
该 PR 是一个小而优雅的改进,通过简单的路由逻辑扩展了 HiSparse 的功能。值得精读的部分是 `_set_default_nsa_backends` 中条件判断的设计思路,以及 `check_server_args` 中 dtype 与后端配对校验的灵活性。建议合入。
DeepEP 支持 routed experts 捕获与 all-gather
值得精读,尤其是 `capture` 和 `_get_local_slice` 的设计权衡,以及测试如何构造有效覆盖。对从事分布式 MoE 和 RL 捕获的同学有参考价值。
融合 norm/QK norm 路径,提升 24.9% 去噪延迟
值得精读,特别是 `_FluxRMSNorm.weight` 属性的暴露模式(兼容 checkpoint 与 fused 接口)和 `apply_qk_norm` 的使用方式。建议后续在类似模型中推广此 fusion 模式。
原始 PR · 作者 Jianhong-Zhang · 合并时间 2026-05-06 10:09
XPU 上 NIXL 指针数组改用 np.uint64 防溢出
该 PR 是典型的平台适配修正,值得对 XPU 或异构编程开发者阅读。设计上,在传输函数入口统一做 dtype 转换,避免分散在代码各处,是一个好做法。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-06 09:37
更新 CI 权限配置,新增用户 maocheng23
变更简单直接,无需精读。作为运维或权限管理的参考。
原始 PR · 作者 merrymercy · 合并时间 2026-05-06 08:49
send_one.py 新增随机输入 len 参数
该 PR 代码清晰,改动集中,可直接合入。建议其他开发者在 profiling prefill 性能时使用 `--random-input-len` 参数。
处理 NIXL 远程断开异常,防止 KV 传输中断崩调度器
该 PR 值得精读,展示了在不改变外部接口的前提下,通过状态化错误处理来增强健壮性的实践。特别关注 commit 历史中从宽泛的 `RuntimeError` 捕获到精确异常捕获的演进过程,体现了防御式编程的设计权衡。
参与讨论