为 Qwen3 Cookbook 添加 Xeon CPU 支持
作为文档更新,值得快速查阅以了解 Xeon 支持的范围。但建议关注 TP 值和 FP8 设置的后续验证,如有实际测试结果应补充更新。该 PR 展示了在文档中为特定硬件平台添加参数配置的典型做法。
SGLang is a high-performance serving framework for large language models and multimodal models.
为 Qwen3 Cookbook 添加 Xeon CPU 支持
作为文档更新,值得快速查阅以了解 Xeon 支持的范围。但建议关注 TP 值和 FP8 设置的后续验证,如有实际测试结果应补充更新。该 PR 展示了在文档中为特定硬件平台添加参数配置的典型做法。
原始 PR · 作者 sglang-bot · 合并时间 2026-05-27 03:10
sgl-kernel 版本从 0.4.2.post2 升级到 0.4.3
建议合并。作为常规的依赖升级,自动化流程降低了人工操作风险。
DeepSeek-V4 部署文档补充 cu129 镜像提示
值得合入,PR 精确解决了用户在使用 GB200 Pro 部署 DeepSeek-V4 时的常见镜像选择困惑。实现简洁、条件精准,代码可读性好。
将FlashMLA集成到sgl-kernel并移除外部依赖
建议阅读该PR,特别是`flash_mla.py`中调度元数据类的设计模式和`flash_mla_with_kvcache`中的类型分派逻辑,这是sgl-kernel集成外部核库的一个经典示例。同时也需关注后续配套的测试PR以确保覆盖。
为 EAGLE/MTP 添加异步断言探测并清理 NaN 检测路径
建议 SRT speculative 路径维护者和使用 DeepSeek 系列模型用户关注本 PR 的防御性增强。环境变量合并和废弃标志移除的设计值得参考,异步断言的使用模式可在类似场景复用。若频繁遇到 flaky 测试或非法地址问题,建议在 CI 中启用 `SGLANG_ENABLE_ASYNC_ASSERT` 环境变量。
修复 flashinfer_cutlass MoE 中间大小非16倍数时崩溃
值得精读。该 PR 展示了如何处理硬件/内核对齐约束的经典模式:后置 padding vs 预分配。讨论中的 API 设计权衡(`server_args` vs 量化方法内解析)对团队有参考价值。
支持 UnifiedRadixCache 的 L3 层级存储后端框架
建议重点关注 `unified_radix_cache.py` 中的预取和备份机制设计,以及 `hybrid_cache_controller.py` 的配置解析方式。这两个文件是 L3 存储的核心骨架。同时注意 host lock 的组件实现一致性,特别是后续 SWAComponent 的支持。测试用例 `test_unified_radix_cache_kl_hicache_part2.py` 是 Mamba 混合模型集成的良好参考。
原始 PR · 作者 junliu-mde · 合并时间 2026-05-26 22:01
修复 PD 模式下 top_logprobs 崩溃问题
值得合入,修复逻辑清晰,测试覆盖充分。开发者在后续涉及 prefill 结果处理时应注意与 batch_result_processor 中的转换逻辑保持对称。
参与讨论