AMD 启用 KIMI-K2.5-MXFP4 共享专家融合
该 PR 值得精读,尤其是学习如何通过最小改动适配新模型架构。重点关注: - `quark.py` 中名称映射的扩展模式,可推广到其他多模态模型。 - 允许列表模式,为未来支持更多专家数量提供了范例。 - 但需注意已识别的引用安全问题,建议后续修复。
SGLang is a high-performance serving framework for large language models and multimodal models.
AMD 启用 KIMI-K2.5-MXFP4 共享专家融合
该 PR 值得精读,尤其是学习如何通过最小改动适配新模型架构。重点关注: - `quark.py` 中名称映射的扩展模式,可推广到其他多模态模型。 - 允许列表模式,为未来支持更多专家数量提供了范例。 - 但需注意已识别的引用安全问题,建议后续修复。
客户端断连后自动取消上游 stream 请求
该 PR 值得所有 sgl-model-gateway 的维护者和使用者精读。特别是 BreakerTrackedStream 的设计(利用 Drop 在流结束时确定断路器状态)以及断路器记录时机的调整,是一个优雅地分离 HTTP 响应状态和实际流传输状态的模式。review 中关于性能优化和避免双重计数的讨论也值得学习。建议部署前做 Canary 测试,验证断路器行为符合预期。
原始 PR · 作者 JINO-ROHIT · 合并时间 2026-05-18 15:49
在安装文档中添加 Apple Metal 链接并更新版本号
该 PR 为简单的文档维护,变更清晰,review 已通过,建议合并。关注点在于确保 `apple_metal.mdx` 页面存在,否则该链接会失效。
原始 PR · 作者 billishyahao · 合并时间 2026-05-18 15:42
修复 AMD CI 上 moriep 单测 OOM
该 PR 为纯粹的测试与 CI 配置调整,不涉及核心逻辑,普通读者无需精读。但 AMD 相关的开发者可关注参数调整逻辑,理解如何在有限显存下配置 MoE 测试。设计决策:通过降低 context length 和 dispatch tokens 有效减少显存占用。
原始 PR · 作者 Xia-Weiwen · 合并时间 2026-05-18 14:59
在 Intel GPU (XPU) 上支持 Qwen3.5 模型
建议仔细阅读 `chunk_delta_h.py` 与 `chunk_fwd.py` 中的低寄存器设计模式,以及 `is_intel` 条件导入的组织方式。该 PR 为后续其他非 CUDA 硬件支持提供了参考架构(vendor 目录 + 工具函数抽象)。对 Intel GPU 推理性能感兴趣的工程师亦可关注。
限定 DeepGEMM BF16 仅用于未量化 DeepEP LL MoE
值得精读,尤其是 MoE 路由层 `deprecate_flag` 的设计模式以及 `process_weights_after_loading` 中配置 dispatcher 的方法,对于理解 sglang MoE 的调度和量化架构很有价值。
修复 EPLB TopK 路径中逻辑/物理专家 ID 映射错误
值得其他开发者了解 EPLB 中逻辑/物理 ID 映射的设计模式,尤其是如何避免重复映射。新增测试可作为类似场景的参考。代码简洁,可作快速阅读。
原始 PR · 作者 maocheng23 · 合并时间 2026-05-18 11:37
优化非 HF fast tokenizer 解码路径
此 PR 设计简洁、逻辑清晰、benchmark 数据充分,值得精读。尤其推荐给关注 serving 性能优化和 tokenizer 适配的工程师,`decode_without_hf_kwargs` 可作为非 fast tokenizer 解码的最佳实践。
参与讨论