Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-05-25
重构 重要性 3.78 洞察度 3.00

将 spec-naming 规则改为按需技能,节省无关任务 context

值得简要阅读以了解如何通过技能(skill)优化 Claude Code 规则加载。但规则引用错误需在后续修复。

功能 重要性 9.18 洞察度 6.00

实验性 Rust HTTP 路由代理,面向 SGLang 推理节点池

该 PR 为草案状态,不推荐立即合并。但值得所有关注 SGLang 路由层和 PD 分离部署的工程师精读其设计文档和关键源码片段,尤其是 cache_aware_zmq.rs 的选择算法、k8s.rs 的 EndpointSlice 处理、以及 active_load.rs 的 RAII 守卫与 janitor 实现。PR 的分层监督和每 commit 可审查的做法值得参考。

缺陷修复 重要性 6.28 洞察度 6.00

修复 DP 解码空闲批次 deadlock

值得精读,尤其关注分布式系统中“空闲批次”作为一等公民的设计思想。三行条件变更修复了一个多节点死锁问题,是分布式调度典型 corner case。

缺陷修复 重要性 6.98 洞察度 7.00

修复重叠加载时取消请求导致 LoRA slot 泄漏

值得精读。该 PR 展示了一个经典的状态管理 bug 及其优雅的修复方式:用不变式(uid_to_buffer_id)替代可变状态(事件字典)来判断加载完成。对于理解重叠加载的实现和设计 trade-off 很有帮助。

缺陷修复 重要性 6.96 洞察度 6.00

修复 XPU 上 GDN kernel 长序列的正确性

值得精读,尤其是 `chunk_delta_h.py` 中的循环重构策略——将时间步设为外层循环有利于维护跨时间步的状态一致性,是 Triton 中复杂 kernel 的典型优化模式。review 中关于 A dtype 的讨论也值得关注,可作为后续精度增强的切入点。

参与讨论