#26273 ci: add nightly Docker workflow for experimental sgl-router
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-25 16:19
新增 experimental sgl-router 每日 Docker 构建 CI
该 PR 是基础设施增强,值得合并。建议后续考虑多架构构建和镜像版本标签策略。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-25 16:19
新增 experimental sgl-router 每日 Docker 构建 CI
该 PR 是基础设施增强,值得合并。建议后续考虑多架构构建和镜像版本标签策略。
topk_softmax 内核新增 512 专家支持
可快速合并。关注点在于阈值变更后,2048+ 专家模型仍正确使用 workspace。
将 spec-naming 规则改为按需技能,节省无关任务 context
值得简要阅读以了解如何通过技能(skill)优化 Claude Code 规则加载。但规则引用错误需在后续修复。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-25 15:34
实验性 Rust HTTP 路由代理,面向 SGLang 推理节点池
该 PR 为草案状态,不推荐立即合并。但值得所有关注 SGLang 路由层和 PD 分离部署的工程师精读其设计文档和关键源码片段,尤其是 cache_aware_zmq.rs 的选择算法、k8s.rs 的 EndpointSlice 处理、以及 active_load.rs 的 RAII 守卫与 janitor 实现。PR 的分层监督和每 commit 可审查的做法值得参考。
原始 PR · 作者 TallMessiWu · 合并时间 2026-05-25 15:24
新增 Diffusion MXFP4 量化文档
值得快速合并,对用户友好。可参考此文档组织后续量化特性的文档更新。
修复 DP 解码空闲批次 deadlock
值得精读,尤其关注分布式系统中“空闲批次”作为一等公民的设计思想。三行条件变更修复了一个多节点死锁问题,是分布式调度典型 corner case。
原始 PR · 作者 erikwijmans · 合并时间 2026-05-25 14:18
修复重叠加载时取消请求导致 LoRA slot 泄漏
值得精读。该 PR 展示了一个经典的状态管理 bug 及其优雅的修复方式:用不变式(uid_to_buffer_id)替代可变状态(事件字典)来判断加载完成。对于理解重叠加载的实现和设计 trade-off 很有帮助。
原始 PR · 作者 Xia-Weiwen · 合并时间 2026-05-25 13:18
修复 XPU 上 GDN kernel 长序列的正确性
值得精读,尤其是 `chunk_delta_h.py` 中的循环重构策略——将时间步设为外层循环有利于维护跨时间步的状态一致性,是 Triton 中复杂 kernel 的典型优化模式。review 中关于 A dtype 的讨论也值得关注,可作为后续精度增强的切入点。
参与讨论