迁移 Intel CPU 测试用例到统一注册体系
作为基础设施标准化 PR,值得关注其设计的注册模式和共享工具类。utils.py 中的 `parametrize` 装饰器实现简洁实用,可复用于其他测试模块。建议精读 utils.py 和 test_qkv_proj_with_rope.py,了解如何为复杂算子构造参考实现和参数化测试。
SGLang is a high-performance serving framework for large language models and multimodal models.
迁移 Intel CPU 测试用例到统一注册体系
作为基础设施标准化 PR,值得关注其设计的注册模式和共享工具类。utils.py 中的 `parametrize` 装饰器实现简洁实用,可复用于其他测试模块。建议精读 utils.py 和 test_qkv_proj_with_rope.py,了解如何为复杂算子构造参考实现和参数化测试。
新增 NPU 性能测试与优化文档
建议所有 Ascend NPU 用户阅读这两份文档,尤其是 `ascend_npu_optimization.mdx` 中的参数解析表。设计决策方面,选择将参数分为“必选”和“优化建议”两类值得借鉴,便于用户优先关注关键配置。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-14 09:45
修复 sgl-kernel 构建 CI 磁盘回收逻辑
该 PR 为 CI 基础设施修复,代码改动量小但修复了两个隐蔽的 bug,值得相关维护者了解。建议关注后续 CI 运行中磁盘清理步骤是否打印清理信息(如 "Removing orphan buildx builder" 行),以确认修复生效。
原始 PR · 作者 alisonshao · 合并时间 2026-05-14 09:40
B200测试移至nightly并精简CI分区配置
推荐关注 CI 效率优化的团队阅读此 PR,特别是 `compute_partitions.py` 中的改动,展示了如何通过数据驱动校准和移除过度保护来精简 CI 配置。未来可考虑将更多非门控测试移至条件触发或 nightly 队列。
原始 PR · 作者 merrymercy · 合并时间 2026-05-14 09:38
为 /v1/loads 端点添加 Prometheus 延迟直方图
该 PR 变更小、影响明确,可作为可观测性增强的范例。建议精读 `v1_loads.py` 的 finally 块实现,学习 try/finally 埋点模式。虽然 review 建议未采纳,但整体逻辑正确,可以直接合入。
新增 DeepSeek V4 w4a4 MegaMoE 推理支持
建议阅读此 PR 以了解如何在 SGLang 中新增 DeepGEMM 后端的量化选项。环境变量转导模式(`_apply_mega_moe_dg_env`)是一个简洁的跨库配置传递方式,值得借鉴。团队应跟进 sgl-deep-gemm 版本发布,并考虑在更多模型上验证 w4a4 效果。
为 multimodal 扩散添加在线 MXFP4/FP8 量化
本 PR 值得精读,尤其关注**量化配置与线性方法的扩展点设计**(`get_quant_method`、`packed_modules_mapping` 注入),以及**跨模型传递量化参数的模式**(在 FeedForward 等子模块中添加 `quant_config` 和 `prefix` 参数)。对于计划在 diffusion 模型上支持新量化后端的开发者,这是很好的参考示例。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-14 08:43
补齐PyO3绑定缺口并添加回归测试
值得精读,特别是 PyO3 绑定模式和测试策略。该 PR 展示了如何安全扩展跨语言绑定,并通过直接调用底层 Rust 类的测试防止接口漂移。对于即将参与绑定开发的工程师,是很好的 reference。
参与讨论