修复 MUSA 设备上 Flash Attention v3 的支持与 API 调用
值得精读,尤其对关注多硬件支持(Moore Threads)的开发者。展示如何将 CUDA 专有函数扩展至其他 GPU 架构,以及关键字参数调用的最佳实践。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 MUSA 设备上 Flash Attention v3 的支持与 API 调用
值得精读,尤其对关注多硬件支持(Moore Threads)的开发者。展示如何将 CUDA 专有函数扩展至其他 GPU 架构,以及关键字参数调用的最佳实践。
为 Gemma4 模型文件添加代码所有者
无需深入阅读。这是一个常规的 CODEOWNERS 维护变更,对理解系统架构无帮助。
原始 PR · 作者 AlonKejzman · 合并时间 2026-04-29 02:43
新增 fastokens tokenizer 后端,加速 TTFT
该 PR 设计清晰,值得精读。关键看点是:①如何通过 monkey-patch 无缝替换 tokenizer 后端;②如何在保证现有路径不变的前提下引入可选高速路径。对于希望了解 SGLang tokenizer 抽象层的开发者来说,这是很好的学习材料。
新增 Nemotron 3 Nano Omni 部署 cookbook
建议合并,同时鼓励 reviewer 验证 snippet 生成的命令是否准确,并检查文档中 API 用例的兼容性。对于希望了解 SGLang 文档架构的开发者,此 PR 是学习 snippet 与 cookbook 协作模式的好例子。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-29 01:22
为 MiMo-V2.5 base 启用 EAGLE MTP 文档与代码片段
值得快速阅读。本 PR 展示了如何在文档层面为新变体启用已存在的功能,以及如何修正参数名并同步基准数据。Code Snippet 中的条件移除和逻辑统一是典型的小重构,对入门者理解前端配置驱动的范式有参考价值。另外 review 中关于 benchmark 数据有效性检查的提醒值得团队注意。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-29 00:42
新增Ling-2.6 cookbook与交互部署选择器
建议阅读此PR以了解如何在SGLang文档中添加新模型cookbook,特别是thinking模式的文档处理和parser兼容性说明。也值得关注review中提出的import问题,确保后续文档PR都包含正确的React import。对于未使用的hardware选择器,应在后续PR中完善。
AMD CI 超时提升至 150 分钟
简单直接的 CI 修复,无需精读。但值得注意:团队应评估是否需要在 AMD 工作流中增加模型缓存或预下载步骤,从根本上解决下载慢的问题,而不仅仅是扩大超时。
新增 H200 单节点 DeepSeek-V4-Pro 低延迟部署方案
对于文档维护者,建议:1) 核实并修正模型路径以确保 H200 兼容性;2) 考虑提取验证逻辑为辅助函数避免重复。对于普通读者,此 PR 属于纯文档增强,无需深入代码细节,但可参考其中的参数组合了解 H200 上 DeepSeek-V4-Pro 的典型低延迟配置。
参与讨论