Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-18

#25390 [AMD] Enable shared-experts fusion with new KIMI-K2.5-MXFP4 model.

原始 PR · 作者 sogalin · 合并时间 2026-05-18 16:30

功能重要性 6.37 洞察度 5.00

AMD 启用 KIMI-K2.5-MXFP4 共享专家融合

该 PR 值得精读，尤其是学习如何通过最小改动适配新模型架构。重点关注： - `quark.py` 中名称映射的扩展模式，可推广到其他多模态模型。 - 允许列表模式，为未来支持更多专家数量提供了范例。 - 但需注意已识别的引用安全问题，建议后续修复。

amdfeatureperformance

#19524 feature: upstream cancel

原始 PR · 作者 dougyster · 合并时间 2026-05-18 16:20

功能重要性 9.18 洞察度 7.00

客户端断连后自动取消上游 stream 请求

该 PR 值得所有 sgl-model-gateway 的维护者和使用者精读。特别是 BreakerTrackedStream 的设计（利用 Drop 在流结束时确定断路器状态）以及断路器记录时机的调整，是一个优雅地分离 HTTP 响应状态和实际流传输状态的模式。review 中关于性能优化和避免双重计数的讨论也值得学习。建议部署前做 Canary 测试，验证断路器行为符合预期。

model-gatewayfeatureperformance

#25178 minor: docs include mac installation

原始 PR · 作者 JINO-ROHIT · 合并时间 2026-05-18 15:49

文档重要性 2.29 洞察度 2.00

在安装文档中添加 Apple Metal 链接并更新版本号

该 PR 为简单的文档维护，变更清晰，review 已通过，建议合并。关注点在于确保 `apple_metal.mdx` 页面存在，否则该链接会失效。

documentationmacos

#25301 [AMD] fix moriep unittest oom on mi300x ci

原始 PR · 作者 billishyahao · 合并时间 2026-05-18 15:42

缺陷修复重要性 4.24 洞察度 3.00

修复 AMD CI 上 moriep 单测 OOM

该 PR 为纯粹的测试与 CI 配置调整，不涉及核心逻辑，普通读者无需精读。但 AMD 相关的开发者可关注参数调整逻辑，理解如何在有限显存下配置 MoE 测试。设计决策：通过降低 context length 和 dispatch tokens 有效减少显存占用。

amdbugfixtest

#21668 [XPU] Enable qwen3.5 on XPU

原始 PR · 作者 Xia-Weiwen · 合并时间 2026-05-18 14:59

功能重要性 9.18 洞察度 7.00

在 Intel GPU (XPU) 上支持 Qwen3.5 模型

建议仔细阅读 `chunk_delta_h.py` 与 `chunk_fwd.py` 中的低寄存器设计模式，以及 `is_intel` 条件导入的组织方式。该 PR 为后续其他非 CUDA 硬件支持提供了参考架构（vendor 目录 + 工具函数抽象）。对 Intel GPU 推理性能感兴趣的工程师亦可关注。

xpuintelfeature

#25540 Use DeepGEMM BF16 for unquantized DeepEP LL MoE

原始 PR · 作者 YAMY1234 · 合并时间 2026-05-18 14:33

重构重要性 7.02 洞察度 6.00

限定 DeepGEMM BF16 仅用于未量化 DeepEP LL MoE

值得精读，尤其是 MoE 路由层 `deprecate_flag` 的设计模式以及 `process_weights_after_loading` 中配置 dispatcher 的方法，对于理解 sglang MoE 的调度和量化架构很有价值。

moequantperformance

#25285 Fix EPLB mapping for TopK paths

原始 PR · 作者 xutizhou · 合并时间 2026-05-18 14:26

缺陷修复重要性 6.02 洞察度 4.00

修复 EPLB TopK 路径中逻辑/物理专家 ID 映射错误

值得其他开发者了解 EPLB 中逻辑/物理 ID 映射的设计模式，尤其是如何避免重复映射。新增测试可作为类似场景的参考。代码简洁，可作快速阅读。

bugfixmoetest

#25309 Optimize detokenization without HF decode kwargs

原始 PR · 作者 maocheng23 · 合并时间 2026-05-18 11:37

性能优化重要性 6.75 洞察度 6.00

优化非 HF fast tokenizer 解码路径

此 PR 设计简洁、逻辑清晰、benchmark 数据充分，值得精读。尤其推荐给关注 serving 性能优化和 tokenizer 适配的工程师，`decode_without_hf_kwargs` 可作为非 fast tokenizer 解码的最佳实践。

performancerefactortest

第 111 / 357 页 · 共 2850 条

上一页 1 … 109 110 111 112 113 … 357 下一页