Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-18
功能 重要性 6.37 洞察度 5.00

AMD 启用 KIMI-K2.5-MXFP4 共享专家融合

该 PR 值得精读,尤其是学习如何通过最小改动适配新模型架构。重点关注: - `quark.py` 中名称映射的扩展模式,可推广到其他多模态模型。 - 允许列表模式,为未来支持更多专家数量提供了范例。 - 但需注意已识别的引用安全问题,建议后续修复。

#19524 feature: upstream cancel

原始 PR · 作者 dougyster · 合并时间 2026-05-18 16:20

功能 重要性 9.18 洞察度 7.00

客户端断连后自动取消上游 stream 请求

该 PR 值得所有 sgl-model-gateway 的维护者和使用者精读。特别是 BreakerTrackedStream 的设计(利用 Drop 在流结束时确定断路器状态)以及断路器记录时机的调整,是一个优雅地分离 HTTP 响应状态和实际流传输状态的模式。review 中关于性能优化和避免双重计数的讨论也值得学习。建议部署前做 Canary 测试,验证断路器行为符合预期。

#25178 minor: docs include mac installation

原始 PR · 作者 JINO-ROHIT · 合并时间 2026-05-18 15:49

文档 重要性 2.29 洞察度 2.00

在安装文档中添加 Apple Metal 链接并更新版本号

该 PR 为简单的文档维护,变更清晰,review 已通过,建议合并。关注点在于确保 `apple_metal.mdx` 页面存在,否则该链接会失效。

#25301 [AMD] fix moriep unittest oom on mi300x ci

原始 PR · 作者 billishyahao · 合并时间 2026-05-18 15:42

缺陷修复 重要性 4.24 洞察度 3.00

修复 AMD CI 上 moriep 单测 OOM

该 PR 为纯粹的测试与 CI 配置调整,不涉及核心逻辑,普通读者无需精读。但 AMD 相关的开发者可关注参数调整逻辑,理解如何在有限显存下配置 MoE 测试。设计决策:通过降低 context length 和 dispatch tokens 有效减少显存占用。

#21668 [XPU] Enable qwen3.5 on XPU

原始 PR · 作者 Xia-Weiwen · 合并时间 2026-05-18 14:59

功能 重要性 9.18 洞察度 7.00

在 Intel GPU (XPU) 上支持 Qwen3.5 模型

建议仔细阅读 `chunk_delta_h.py` 与 `chunk_fwd.py` 中的低寄存器设计模式,以及 `is_intel` 条件导入的组织方式。该 PR 为后续其他非 CUDA 硬件支持提供了参考架构(vendor 目录 + 工具函数抽象)。对 Intel GPU 推理性能感兴趣的工程师亦可关注。

重构 重要性 7.02 洞察度 6.00

限定 DeepGEMM BF16 仅用于未量化 DeepEP LL MoE

值得精读,尤其是 MoE 路由层 `deprecate_flag` 的设计模式以及 `process_weights_after_loading` 中配置 dispatcher 的方法,对于理解 sglang MoE 的调度和量化架构很有价值。

#25285 Fix EPLB mapping for TopK paths

原始 PR · 作者 xutizhou · 合并时间 2026-05-18 14:26

缺陷修复 重要性 6.02 洞察度 4.00

修复 EPLB TopK 路径中逻辑/物理专家 ID 映射错误

值得其他开发者了解 EPLB 中逻辑/物理 ID 映射的设计模式,尤其是如何避免重复映射。新增测试可作为类似场景的参考。代码简洁,可作快速阅读。

性能优化 重要性 6.75 洞察度 6.00

优化非 HF fast tokenizer 解码路径

此 PR 设计简洁、逻辑清晰、benchmark 数据充分,值得精读。尤其推荐给关注 serving 性能优化和 tokenizer 适配的工程师,`decode_without_hf_kwargs` 可作为非 fast tokenizer 解码的最佳实践。

参与讨论