替换Pydantic逐元素验证为C循环,API性能提升25倍
值得精读以了解如何利用 Python `array` 模块和 Pydantic `PlainValidator` 实现高性能类型验证。其微基准测试方法也可推广到其他热点路径的优化评估。
SGLang is a high-performance serving framework for large language models and multimodal models.
替换Pydantic逐元素验证为C循环,API性能提升25倍
值得精读以了解如何利用 Python `array` 模块和 Pydantic `PlainValidator` 实现高性能类型验证。其微基准测试方法也可推广到其他热点路径的优化评估。
为AMD MI355X添加GLM-5.1-MXFP4 TP=2 GSM8K准确率门控测试
该PR结构清晰、用途明确,值得在AMD CI相关维护者中了解。其中 `_raise_nofile_limit` 和 `_get_model_path` 是硬件测试中常见的实用工具,可复用于未来测试。建议关注其CI运行稳定性,并根据实际硬件资源调整 `num_questions` 和 `parallel` 等参数。
为 AMD MI35x 添加 DSR1-0528 FP8 HiCache GSM8K CI 测试
建议合并,该 PR 填补了关键的回归测试空白,且本地验证充分。未来可考虑增加更多数据集或不同 HiCache 配置的测试,以进一步覆盖边缘情况。
仅更新注释和文档,无行为变更
虽然是纯注释变更,但其中的设计解释(为什么 D2H 用独立流)以及 FIXME(统一索引)值得关注,反映了架构决策和未来演进方向。
将 diffusion serve warmup 从请求预热改为服务器预热,并修复多模型边缘情况
**值得精读**。该 PR 展示了服务端预热的设计权衡:如何在不影响用户请求的前提下确保缓存就绪。`should_include_warmup_image` 的策略和 `get_model_sampling_defaults` 的回退机制是值得关注的模式。同时修复了多个模型特定的兼容问题,是理解 sglang diffusion 架构的好入口。
修复重叠调度数据竞争,解除前向占用损失
核心逻辑改动精炼,设计巧妙(用私有流避免屏障串行化),值得深入阅读。但 AMD 和 GB 回归表明跨平台适配不充分,建议后续添加数据竞争测试和跨平台性能基准后再逐步推广。
添加 Ling-2.6 百灵模型支持及推理优化
建议重点关注 `bailing_moe_linear.py` 中的异步 CUDA stream 设计,该模式可推广至其他 MoE 模型;`handle_max_mamba_cache` 的联合求解公式也值得参考。但需督促补充单元测试,并确认 `ispobock` 的 double check 已解决。
修复 V4 Pro Balanced 配方的 MegaMoE 和 DeepEP 后端
可直接合并,逻辑清晰且无争议。
参与讨论